を同期CUDAでは、多くのカーネルは、この質問は、CUDAを使用してに関連して、待ち時間/遅延
を実行するために、ストリーム多くの同期があるかどうかを確認するために cudaStreamSynchronize、 CudaDeviceSynchronize、 cudaThreadSynchronize、 ともcudaStreamQueryコマンドストリームは空です。
プロファイラを使用すると、これらの同期コマンドによってプログラムに大きな遅延が生じることがわかりました。できるだけ少ない同期コマンドを使用してこのレイテンシーを減らす手段を誰かが知っているかどうかは疑問でした。
最も効果的な同期方法を判断する数値もあります。それはアプリケーションで使用されている3つのストリームを考慮し、2つは、私は2つのcudaStreamSyncsを使用する必要がありますか私はダウンストリームを開始するために完了する必要がありますか、わずか1つのcudaDeviceSyncは、
cudaThreadSynchronizeは推奨されていません。 –