simd

5熱

2答えて

Cortex A15のNEON SIMDバージョン2とNEON SIMDバージョン2の違いは何ですか？

11熱

3答えて

ロード命令などVPGATHERDDなどが集まっているAVX2の組み込み関数のドキュメントを見て：ドキュメントから私には明らかではないが、何 __m128i _mm_i32gather_epi32 (int const * base, __m128i index, const int scale); が算出したロードアドレスがあるされているかどうかを load_addr = base + ind

6熱

1答えて

AVX SSEと_mm_load1_ps

256ビット相当もし固有_mm_load1_ps（と__m128のすべての4つのスロットにメモリから単一のフロートをロードすることができる） AVX 256ビット幅のSIMDを使用する場合、があるように思わ_mm256_load1_ps（）は、メモリから単一のfloatをベクトルの8つのスロットすべてにロードするためのものではありません。なぜこの省略がありますか？これを回避するにはどうすればよい

6熱

1答えて

2組の4つのショートパンツをXMMレジスタにロードする方法は？

私はVisual C++ 2012を使用してSSE組み込み関数を使い始めましたが、いくつかのポインタが必要でした。私はそれぞれ4個のsigned shortを含む2つの配列を持っています（各配列は64ビットなので合計128です）。 XMMレジスタの上位ビットに1をロードし、下位ビットに1をロードします。 SSE組み込み関数を使用してこれを効率的に達成できますか？もしそうなら、どうですか？

11熱

4答えて

2つの配列間の等しいバイト数を高速にカウントする

SSE命令を使用して2つの16バイトの数値を比較するために、関数int compare_16bytes(__m128i lhs, __m128i rhs)を書きました。この関数は、比較を行った後に等しいバイト数を返します。ここでは、任意の長さの2バイト配列を比較するために上記の関数を使用したいと思います。長さは16バイトの倍数ではない可能性があります。以下の機能の実装をどのように完了できますか？

9熱

2答えて

gccはインテルのSSE 4.2命令をテキスト処理に使用していますか？

私は、インテルが文字列処理を高速化するためにSSE 4.2 instructionsを導入したhereを読んでいます。物品から引用：最初のインテルのコアI7に実装SSE 4.2命令セット、は、文字データを処理するため SIMD演算を利用して文字列とテキスト処理命令（STTNI）を提供します。もともとが文字列、テキスト、XML処理を高速化するために開発されましたが、これらの命令の強力な新機能

7熱

2答えて

逆順の整数をロードするSSE2命令

intバッファから128ビットのintベクトルレジスタを逆順にロードするSSE2命令はありますか？

15熱

5答えて

.NETの高速ベクトル演算 - オプションは何ですか？

SlimDXを使用してC＃で書かれた私の3Dグラフィックスソフトウェアは、CPU上で多くのベクトル操作を行います。（この特定の状況では、GPUに作業をオフロードすることはできません）。ベクトル演算を高速化するにはどうすればよいですか？これまでのところ、私はこれらのアプローチを見つけました： SIMDをサポートしているため、Microsoft .NETの代わりにMonoで実行してください。このプ

14熱

2答えて

SSEとAVXのSIMD数学ライブラリ

私はSSEとAVXのSIMD数学ライブラリ（好ましくはオープンソース）を探しています。私は、例えば8つの浮動小数点値を持つAVXレジスタvを持っていれば、sin（v）が8つの値のすべての罪を一度に返すことを望んでいます。 AMDには、いくつかのSIMD演算機能を備えたLibM http://developer.amd.com/tools/cpu-development/libm/がありますが、Li

23熱

1答えて

AVX比較述語バリアントを選択する方法

アドバンスドベクトル拡張（AVX）で、_m256_cmp_psのような比較命令を使用する場合、最後の引数は比較述語です。述語の選択肢が私に圧倒されます。彼らはタイプ、注文、シグナリングの三重であるようです。など。 _CMP_LE_OSは 'より小さいか等しい、順序付けられた、シグナリングです。最初に、信号または非シグナリングを選択するパフォーマンス理由はありますか？同様に、順序付けされて