一般的な質問:スレッドの数は、対処したい要素のサイズと等しくなければなりませんか? exmaple:行列M [a] [b]がある場合。私は(aXb)スレッドを割り当てる必要がありますか、(ab以上)必要以上のスレッドを割り当てることができますか?要素aXb + 1に焦点を当てるスレッドが私たちを投げ捨てるので、彼はそれをしませんか?解決策は状態を入れることです(範囲(ab)にある場合のみ)?については、Cudaのスレッドを整理することについて
特定の質問:x行y列のM [x] [y]行列とする。 1000 < = x < = 300000とy < = 100を考えてみましょう。どのようにしてスレッドをxとyの各入力に対して一般的になるように整理できますか?私は各スレッドが行列の1つの要素に焦点を当てることを望みます。 CC = 2.1ありがとう!
さらに割り当てることができます。どちらのアプローチも働くことができます。必要以上に多くのスレッドを割り当てる場合は、各スレッドが有効なデータで動作していることを確認する条件テストをカーネルに組み込む必要があります。必要以上に少ないスレッドを割り当てる場合は、カーネルに[何らかのループを含める](https://devblogs.nvidia.com/parallelforall/cuda-pro-tip-write-flexible-kernels-grid-stride-loops/)を含める必要があります。 )を使用してすべてのデータ項目をカバーします。 –