nvprof

    0

    1答えて

    を終了したことがないgputools私はそれをやっている方法です: ./nvprof --print-GPU-トレース--devices 0 - -analysis-metrics --export-profile/home/xxxxx /%p R これは私にRプロンプトを表示し、Rコードを書きます。私もRscriptで行うことができます。 私はそれは私にカーネルをリプレイ == 44041 ==

    0

    1答えて

    CUDAコードを持つPythonスクリプトを実行するために、2つのGPUを持つリモートマシンを使用しています。コードのパフォーマンスを改善できる場所を見つけるために、nvprofを使用しようとしています。 nvprof --profile-child-processes ./myscript.pyを呼び出すと、GPUのそれぞれで同じIDのプロセスが開始されますが、リモートマシンで2つのGPUのうち

    0

    1答えて

    がエラーを示しています Encountered invalid option : --openacc-profiling ======== Use "nvprof --help" to get more information. 私はプロファイルにしようと、任意のGPU applicatiionは同じエラーを取得します。 「OpenACCプロファイリングを有効にする」オプションのチェックボッ

    1

    1答えて

    nvprofでは、使用している各cuda実行ストリーム(0,13,15など)のストリームIDを確認できます。 ストリーム変数を指定すると、ストリームIDを出力することができます。現在私はこれを行うためのAPIを見つけることができず、cudaStream_tをintまたはuintにキャストしても妥当なIDが得られません。 sizeof()によると、cudaStream_tは8バイトです。

    1

    1答えて

    私はnvprofでプロファイルしたい小さなCUDAプログラムを持っています。問題は、私は私がnvprof my_progを実行すると 、それはcudaProfilerStartとcudaProfilerStopを起動するようにプログラムを書きたいということです。 my_progを実行すると、上記のAPIは起動されず、プロファイリングオーバーヘッドがなくなります。 したがって、問題が発生すると、コマ

    4

    1答えて

    これは、nvprofがカーネル内のフロップの数をプロファイルできることを示しています(下記のパラメータを使用してください)。また、ドキュメントを参照するとき(ここではhttp://docs.nvidia.com/cuda ... flop_count_spは「述語以外のスレッドによって実行される単精度浮動小数点演算の数(加算、掛け算、掛け算累積、特殊)」です)各積和演算数に2を貢献する。」 しかし

    0

    1答えて

    私はプロファイルしたいCUDAアプリケーションに取り組んでいます。今まで私が使ってきたのはコマンドラインプロファイラのnvprofだけで、集計された統計情報が表示されます。 私はGUIプロファイラNVVPの使用について考えました。問題は、アプリケーションを実行しているリモートのLinuxノードにGUI(X.orgを含む)がないことです。さらに、たとえリモートノード上でX11スタックをいくつか取得で

    0

    1答えて

    私は簡単な実験を行っています。誰もが知っている可能性がありますcallback_metric CUPTIのサンプルコード(CUPTIフォルダにあります:/usr/local/cuda/extras/CUPTI/sample/callback_metric)。これには、ベクトルのカーネルを実行しているときにメトリックを読み取るための単純なコードだけが含まれています。コードをコンパイルして実行すると、

    0

    1答えて

    私はnvprofの新規ユーザーです.NVprofを使用してコードをプロファイルしようとしたときにエラーが発生しました。自分のコードにOpenACCのディレクティブをいくつか追加しました。私が使ったcudaツールキットはCuda8.0です。私のコードはfortran90 + OpenMPIで書かれています。私は並列計算に16コアを使用しました。ここで私は、コードを提出するために使用するスクリプトは次

    0

    1答えて

    JCudaを使用してCUDAカーネルを実行するJavaコードを書きました。私はストリームがどのように重なり合っているかを知るためにアプリケーションをプロファイルしたいと思います。私は、カーネルの実行時間を得るためにcudaEventElpasedTimeのようなcudaイベントコールを使用することができますが、同じカーネルの開始タイムスタンプと終了タイムスタンプを取得する方法はわかりません。 nv