私はいくつかのCPUコードをCUDAに移植しようとしています。私のCUDAカードはFermiアーキテクチャに基づいているため、デバイスのmalloc()関数を使用してメモリを動的に割り当てることができ、元のコードを多く変更する必要はありません。 (malloc()関数は私のコードで何度も呼び出されます)。私の質問は、このmalloc関数が十分に効率的かどうかです。私はCUDA上で自分のコードを実行するのにスピードアップをあまりしません。これはmalloc()関数の使用によって引き起こされる疑いがあります。CUDAでのMalloc機能の効率
ご提案やご意見がありましたら教えてください。私はあなたの助けに感謝します。
ありがとうございます。あなたは紙のリンクに私を指摘できますか? – xhe8
論文の基礎となった論文はここにあります(https://www.ideals.illinois.edu/handle/2142/16137)。 – talonmies