simd

2熱

1答えて

私はアップルメタルAPIと一緒にsimdライブラリと一緒に遊んでいます。そこヘッダ内のようなコードです： vector_float3 v; vector_float3& ref = v; ： typedef __attribute__((__ext_vector_type__(3))) float vector_float3; は、私はそれが実際に何をするか興味と、コンパイラは、関数の引数

-1熱

1答えて

SandybridgeとIvyBridgeのsseとavxパフォーマンス

SandyBridgeプロセッサ（i7-3820）で一連のアプリケーションをベンチマークしています。ベンチマークは2つの異なるバージョンで構成されています。これらの2つのバージョンには同じコードが含まれていますが、最初のバージョンではsse/sse2のイントリンシックが使用され、2つ目のバージョンではavxのイントリンシックが使用されます。私はどちらかのx64またはx86上のSSE instr

-1熱

1答えて

バイトとushort配列を追加する.NET SIMD

short型の出力配列に追加する必要がある長いバイト配列があります。ソリューションは、ここで見つけることができます：私は、この命令（加算のために2つの8要素の短い配列に1つの16要素のバイト配列を開梱するために必要な）「を解凍」のサポートを欠いmanaged SIMD を使用してやろうとしています SEE byte + short. 。ここではサポートされている操作は、管理SIMDである：誰もが

1熱

1答えて

ARMネオンのARMv7 SIMD命令の次のforループのネオンコードを書くための方法を比較

場合： float sfx[64], delta = 9.9e-5; for(int i = 0; i < 64; i++) { if (sfx[i] < delta) { abq[i] = 1.0/delta; } else { abq[i] = 1.0/sfx[i]; } } 私はvbslq_f32を使用しようが、私はそのパラメータ

6熱

1答えて

AVX2、256ビットレジスタの偶数インデックスに効率的に4つの整数をロードし、奇数インデックスにコピーする方法？

私はインデックスI0、I1、I2、I3を含む整数の配列をメモリに持っています。私の目標は、I0、I0 + 1、I1、I1 + 1、I2、I2 + 1、I3、I3 + 1を含む__m256iレジスタにそれらを入れることです。難しい部分はI0、I0 、I1、I1、I2、I2、I3、I3、私は0、1、0、1、0、1、0、1 を含むレジスタを追加することができ、私は、内因、_mm256_castsi128

1熱

1答えて

AVX float4/double4 struct

浮動小数点数型/ double4構造体のAVX-256/512コードを探しています。*、+、/、 - 、スカラーなどの基本演算をオーバーロードし、ベクトルからの高速なパフォーマンスを向上させます。 float4/double4を使用して記述されたコード内の操作OpenCLはこれらのデータ型を組み込み関数として持っていますが、XeonPhi上で実行されるC++コードでは、512ビットSIMDユニット

2熱

1答えて

CythonのAES-NI組み込み関数？

Cythonコード内でAES-NI命令を使用する方法はありますか？私は見つけることができる最も近い誰かがSIMD命令にアクセスする方法です：Pythonのスレッドで https://groups.google.com/forum/#!msg/cython-users/nTnyI7A6sMc/a6_GnOOsLuQJ AES-NIが回答はなかった。 Python support for AES-N

2熱

2答えて

OpenCL SubSliceはCUDA Warp（SIMD）に類似していますか？

短い背景： CUDAでは、同期が保証されている32スレッドのコンセプトがあります。私はこのSIMDの動作に依存して、一連の同期呼び出し（あるループの後に1つのスレッドが終了し、残りのスレッドが計算に使用する共有メモリに値を書き込む）の潜在的なオーバーヘッドを避けるために、 OpenCLでこの動作をイメージする方法はありますか。 Sub_Slices？ According to Intel彼らはこの

4熱

1答えて

異なる値で4つの整数をシフトSIMD

SSEでは、パックされた整数を可変量シフトする方法は提供されていません（AVX以上の命令を使用できます）。あなたは一様なシフトしか行うことができません。私がベクトルの各整数に対して達成しようとしている結果はこれです。 i[0] = i[0] & 0b111111; i[1] = (i[1]>>6) & 0b111111; i[2] = (i[2]>>12) & 0b111111; i[3]

1熱

3答えて

アレイの近似平方根近似

popcntとSSE4.2を使用して、CPUのアレイの近似平方根をより速く計算するにはどうすればよいですか？入力は、浮動小数点配列に格納された正の整数（0〜約200,000の範囲）です。出力は浮動小数点数の配列です。どちらのアレイも、sseの正しいメモリ配置を持っています。コードのみ1つのXMMレジスタを使用して下には、Linux上で動作し、ありがとうgcc -O3 code.cpp -l