新しいARMプロセッサには、PLD命令とPLI命令が含まれています。ARMのプリフェッチ命令
私は、非シーケンシャルなメモリアクセスパターンを持つタイトな内部ループ(C++)を書いていますが、自然に自分のコードが完全に理解できるパターンです。私は、現在のメモリ位置を処理しながら次の場所を先読みすることができればかなりのスピードアップが予想されますが、これは実験の価値があることを試すのに十分速いと思います!
私はARMの新しい高価なコンパイラを使用していますが、私が気にしているこの特定のループに加えて、PLD命令をどこにも含めていないようです。
明示的なプリフェッチ命令をC++コードに含めるにはどうすればよいですか?
最適化している特定のループの例が質問に含まれている場合、貢献者はPLD命令以外の最適化を見つけるのに役立ち、具体的な例を挙げることができます。 –