simd

    5

    2答えて

    Cortex A15のNEON SIMDバージョン2とNEON SIMDバージョン2の違いは何ですか?

    11

    3答えて

    ロード命令などVPGATHERDDなどが集まっているAVX2の組み込み関数のドキュメントを見て:ドキュメントから私には明らかではないが、何 __m128i _mm_i32gather_epi32 (int const * base, __m128i index, const int scale); が算出したロードアドレスがあるされているかどうかを load_addr = base + ind

    6

    1答えて

    256ビット相当もし固有_mm_load1_ps(と__m128のすべての4つのスロットにメモリから単一のフロートをロードすることができる) AVX 256ビット幅のSIMDを使用する場合、があるように思わ_mm256_load1_ps()は、メモリから単一のfloatをベクトルの8つのスロットすべてにロードするためのものではありません。 なぜこの省略がありますか?これを回避するにはどうすればよい

    6

    1答えて

    私はVisual C++ 2012を使用してSSE組み込み関数を使い始めましたが、いくつかのポインタが必要でした。 私はそれぞれ4個のsigned shortを含む2つの配列を持っています(各配列は64ビットなので合計128です)。 XMMレジスタの上位ビットに1をロードし、下位ビットに1をロードします。 SSE組み込み関数を使用してこれを効率的に達成できますか?もしそうなら、どうですか?

    11

    4答えて

    SSE命令を使用して2つの16バイトの数値を比較するために、関数int compare_16bytes(__m128i lhs, __m128i rhs)を書きました。この関数は、比較を行った後に等しいバイト数を返します。 ここでは、任意の長さの2バイト配列を比較するために上記の関数を使用したいと思います。長さは16バイトの倍数ではない可能性があります。以下の機能の実装をどのように完了できますか?

    9

    2答えて

    私は、インテルが文字列処理を高速化するためにSSE 4.2 instructionsを導入したhereを読んでいます。物品から 引用: 最初のインテルのコアI7に実装SSE 4.2命令セット、 は、文字データを処理するため SIMD演算を利用して文字列とテキスト処理命令(STTNI)を提供します。もともと が文字列、テキスト、XML処理を高速化するために開発されましたが、これらの命令の強力な新機能

    7

    2答えて

    intバッファから128ビットのintベクトルレジスタを逆順にロードするSSE2命令はありますか?

    15

    5答えて

    SlimDXを使用してC#で書かれた私の3Dグラフィックスソフトウェアは、CPU上で多くのベクトル操作を行います。 (この特定の状況では、GPUに作業をオフロードすることはできません)。 ベクトル演算を高速化するにはどうすればよいですか?これまでのところ、私はこれらのアプローチを見つけました: SIMDをサポートしているため、Microsoft .NETの代わりにMonoで実行してください。このプ

    14

    2答えて

    私はSSEとAVXのSIMD数学ライブラリ(好ましくはオープンソース)を探しています。私は、例えば8つの浮動小数点値を持つAVXレジスタvを持っていれば、sin(v)が8つの値のすべての罪を一度に返すことを望んでいます。 AMDには、いくつかのSIMD演算機能を備えたLibM http://developer.amd.com/tools/cpu-development/libm/がありますが、Li

    23

    1答えて

    アドバンスドベクトル拡張(AVX)で、_m256_cmp_psのような比較命令を使用する場合、最後の引数は比較述語です。 述語の選択肢が私に圧倒されます。 彼らはタイプ、注文、シグナリングの三重であるようです。 など。 _CMP_LE_OSは 'より小さいか等しい、順序付けられた、シグナリングです。 最初に、信号または非シグナリングを選択するパフォーマンス理由はありますか? 同様に、順序付けされて