memory-bandwidth

6熱

2答えて

この質問はです。具体的には、は、現代のx86-64キャッシュコヒーレントアーキテクチャーを対象としています。答えは他のCPUで異なる可能性があります。メモリに書き込む場合、MESIプロトコルでは、キャッシュラインが最初にキャッシュに読み込まれ、次にキャッシュ内で変更される必要があります（値はダーティとマークされたキャッシュラインに書き込まれます）。古い書込み型マイクロアーキテクチャでは、これによ

0熱

2答えて

CUDAの特定の命令またはコードラインのメモリ帯域幅を測定する方法はありますか？

CUDAの特定のメモリ命令またはコードラインのメモリ帯域幅を測定する方法はありますか？（nvprofはカーネル全体のメモリ帯域幅を出力することができます）。clock（）関数が唯一の方法であれば、帯域幅を計算する式は何ですか？（{命令またはコード行ごとの合体アドレスの数}をクロック（）の差で割ったもの）特定の命令またはコード行がメモリ帯域幅を超えているかどうかを確認したいと思います。（ex

5熱

2答えて

OpenMPとコア/スレッド

私のCPUはコア2個とスレッド4個のCore i3 330Mです。私の端末にcat /proc/cpuinfoというコマンドを実行すると、私は4 CPUSを持っているようです。 OpenMP関数を使用すると、get_omp_num_procs()も得られます。標準のC++ベクタークラスがあります。これは、式テンプレートを使用しない固定サイズの2倍配列クラスを意味します。クラスのすべてのメソッドを

0熱

1答えて

メモリ帯域幅情報を使用してHPCアプリケーションのmflop/sを計算する

アプリケーションを実行しないでHPCアプリケーション（NASベンチマーク）のmflops（プロセッサあたりの操作数百万回）を計算します。 Stream Benchmarkを使用して私のシステム（スーパーコンピュータ）の各コアのメモリ帯域幅を測定しました。私はコアのメモリ帯域幅情報を持つことで、アプリケーションのプロセッサごとにmflopsを得る方法が不思議です。私のノードには、すべての物理コアを

-1熱

1答えて

ソースコードを使用してノードごとにMPIベンチマークを測定する方法は？

メモリ帯域幅（ストリームベンチマーク）PER NODEを測定する方法がどういうことかと思います。私が持っている、一つのノードのみで、それを測定し、このプログラムは、プロセスやスレッドの数は、以下のように取られるでしょう： MPI_Comm_size(MPI_COMM_WORLD, &numranks); MPI_Comm_rank(MPI_COMM_WORLD, &myrank); omp_s

0熱

1答えて

GDDR5から1サイクルあたりどのくらいのデータをロードできますか？

nVidia GTX980は224GB/sの帯域幅と7Gbpsのメモリクロックを備えています。そのバス幅は256bitです。 GDDR5から最大/最小のデータを並列にロードすることはできますか？ 224GB/sを7Gbpsで割った回答を得ることはできますか？