2011-06-21 6 views
0

ipad1とipad2でNEON命令をテストすると、ほとんどの機能が実際にipad1よりもipad2上ではるかに高速に実行されるipad2のコードで速度が上がらないことがわかります。ipad2ネオン浮動小数点速度対ipad1

これは、VMUL、VLD1、VADD、VSUBなどの命令で、FFTなどのようにq0のようなクワッドワードレジスタを使用します。

さらに、リンゴはFFT関数vdsp_fft_zripを所有しているため、ipad2の速度も向上しません。

質問がありますか?ipad2 NEONは、クワッドワードSIMD型命令のipad1 NEONエンジンより高速に実行されますか?

+1

StackOverflowの「VFP」タグは「Visual FoxPro」を示します。あなたはおそらくあなたの質問から削除したいです。 –

答えて

0

NEONは、最近導入された64ビットARMであっても、まったく同じままです。

NEONは、クロックスピードの増加にあまり効果がありません。 NEONはすでに非常に高速であるため、メモリからのデータを待っている関数実行時間の大部分を費やしています。

+1

よく書かれたNEONコードは、データを待つ時間をほとんど費やしてはいけません。そのような状況に陥った場合は、読み込んでいるデータをより多くの作業をする方法を探してください。 –

+0

@StephenCanonそれは理論です。実際には、記憶はあなたが愛するよりもずっと遅いです。私の非常によく書かれたイメージスケーリングルーチンは、ハザードゼロとデュアル発行 - どこでもスケジューリング可能なスケジューリングはmemcpyと同じくらい速く実行され、メモリーからデータを待っている実行時間の大半を費やします。 –

+0

もちろん、それは完全に可能です。しかし、画像スケーリングコードを画像タイル上の他の操作と組み合わせて、メモリからではなくL1キャッシュからデータを取り出すことができれば、(一般的に)そのような効果は見られません。 –

1

A4のNEONユニットは、他のコアと比べて非常に強力でした。 A5のコアの残りの部分はA4から大幅に改善されていますが、NEONユニットの性能はほとんど変わりません。あなたが観察していることが期待されます。

もちろん、2つのコアがありますので、両方の利点を活用することができれば、大幅なスピードアップが可能です。また、A5の倍精度計算は、今度は完全にパイプライン化されているので、が大幅に改善されました。