pgi-accelerator

    1

    1答えて

    私はOpenACCに翻訳したシンプルなCUDAコードを持っています。私のカーネルはすべて期待どおりに並列化されていて、私のCUDAカーネルと似た性能を持っています。しかし、デバイスからホストへのメモリ転送は私のパフォーマンスを殺します。私のCUDAコードでは、固定メモリーを使用しており、パフォーマンスははるかに優れています。残念ながら、OpenACCでは、固定メモリをどのように利用するのか分かりま

    0

    1答えて

    次のダミーコードを使用して問題を再現してください。 program pp implicit none real*8,dimension(45) :: refPoints refPoints(:) = (/ -1.0 , 1.0 , 1.0 , -1.0 , -1.0 , 1.0 , 1.0 , -1.0 , 0.0 , 1.0 , 0.0 , -1.0 , 0.0 ,

    0

    1答えて

    私はホスト上にサイズNの配列を持っています。私はそれを私のデバイスに転送し、エイリアスを割り当てて使用しようとします。しかし、私は "配列の境界を決定できません" コンパイルエラーを取得します。 例:上記のコード #include <openacc.h> #include <stdio.h> #include <stdlib.h> #define N 1000 int main()

    0

    1答えて

    how to solve pgcc&openacc linker error "__pgi_uacc_multicorestart", "__pgi_uacc_multicoreend" これは、上記1の後のフォローアップの質問は何かということです。 "lbe.cからlbe.oメッセージをコンパイルする"では、 "PGC-I-0222-冗長定義"メッセージが常に表示されます。それは警告か間違いです

    0

    1答えて

    配列依存性を持つOpenACCコードを書いています。内部ループの各反復は配列の同じ位置を更新できます。 OpenACCで #pragma omp parallel private(i) { long unsigned int digit_local[d+11]; for(i=0;i<d+11;i++) digit_local[i] = 0;

    1

    2答えて

    AMD Radeon R7 M360でコンパイルする際に問題があります。私は以下に示すようにマルチコアでコンパイルしましたが、誰でもGPUでコンパイルする方法を教えてください。-ta = amd64/radeonを試しましたが、どれも動作しません。このイメージのコードを見ることができます。:私は PGC++ -V -Minfo =アクセル-acc -ta =マルチコアsum.cpp -o /ホーム

    0

    1答えて

    私は現在、PGI(15.10)コンパイラでOpenACCを使用して、ほとんどのルーチンをGPGPUに移植することによって、スペクトル要素流体ソルバーを加速しようとしています。ソースコードはOO-Fortranで書かれています。このソフトウェアには、他の関数やサブルーチンを呼び出すサブルーチンの「レイヤー」があります。 openaccを使ってGPUにコードを渡すには、移植する必要がある各ルーチンに

    0

    1答えて

    PGIコンパイラによってOpenACCに使用される特定の関数のシグネチャを見つける方法はありますか? たとえば、__pgi_uacc_enterまたは__pgi_uacc_launchの機能。 署名を見つけるためのドキュメントまたはヘッダーファイルはありますか。あるいは、署名だけでなくその機能性に関するいくつかの文書さえも。

    0

    1答えて

    です$ルーチン配列 ACC私は、エラーメッセージ /scratch/tmp/pgaccKU0jSWcDesiI.gpu(93)以下になっています!:エラー:識別子 "pgf90_mzero8" "/scratch/tmp/pgnvdgV0jsxZLyFWv.nv0" PGIコンパイラのバージョン17.4 テキストケースのコンパイルで検出未定義 1エラーであります サブルーチンXX(ndime、pg

    0

    1答えて

    私はGPUにコードを持ってきています。このコードにはプライベート配列を使用するカーネルがあります。これは、配列がカーネルループ内で宣言されていることを意味します。 OpenACCにコードを移植すると、私はバグの多い結果になる。私にとって、 は、配列がGPUベクトルスレッド間で共有されているように見えます。これは、いくつかの競合状態を引き起こします。 これは私の元のコードのように外部呼び出しで構成し