2011-07-20 9 views
0

これによると、http://www.nvidia.co.uk/content/PDF/isc-2011/Ziegler.pdf、私はGPU文献の平均シリアライズのリプレイを理解しています。しかし、シリアライゼーションの数にはどのような要因がありますか?GPUシリアライゼーション分解

これを行うには、いくつかの実験を行いました。いくつかのカーネルをプロファイリングし、リプレイの数を見つけます(=発行された命令 - 実行された命令)。時々、銀行競争の数はリプレイの数に等しい。他の時代には、銀行紛争の数は少なくなっています。これは、銀行の争いの数が常に要因であることを意味します。もう一方はどう?

(スライド35)から上記スライドによれば、いくつかの他のものがある:

。命令キャッシュミスは

です。

:一定のメモリバンクが私の理解へ

を競合、他の二つが存在することができます。枝の数は異なる。両方のパスが実行されるので、リプレイがあります。しかし、発行された命令の数が発散の影響を受けるかどうかはわかりません。

。キャッシュミスの数。私は長い待ち時間のメモリ要求が時々再生されると聞いています。しかし、私の実験では、L1キャッシュミスはリプレイより高いことがよくあります。

これらの要素がシリアル化に寄与していることを確認できる人はいますか?間違っていて、何か他のことを忘れていますか?

ありがとう

答えて

1

私の知る限り、分岐の分岐は命令の再生に役立ちます。

キャッシュミスの回数についてはわかりません。これは、命令に影響を与えないメモリコントローラによって透過的に処理されるべきである。私が考えることができるより悪いことは、メモリが適切にフェッチされるまでパイプラインが停止することです。

+0

ええ、私は発散が命令の一部でもあると思います。しかし、私が見たように、発散と銀行の葛藤の合計は、リプレイよりも大きいです! – Zk1001

関連する問題