2
を実行するために減らす::合計を並列化する削減:例えば、フォースCUDAの推力::私は推力を使用するCUDAプログラムを持っていない並列処理
thrust::device_ptr<double> tmp(aux);
double my_sum = thrust::reduce(tmp, tmp + G);
double* aux
ポイントデバイス上のG
の連続倍に。私は並列化されたプログラム全体の実行時間を並列計算のないバージョンと比較する必要があります。デバイス上のスレッドを1つだけ使用してthrust::reduce
を実行する方法はありますか?グローバルスイッチは最も便利なオプションです。