intrinsics

0熱

1答えて

XCode 7.1でCプログラムでSIMD組み込み関数を使用しようとしています。（私は、C++プログラムではなく、C99プログラムを書いています）。私はimmintrin.hをインクルードしました。そして、非常にうまく機能する組み込みコマンドを使っていくつかの関数を書いてきました。 float cimpl_sum_m128(__m128 x){ float out; __m

4熱

1答えて

何が_mm256_lddqu_si256と_mm256_loadu_si256の違い

私はオンラインで見つかった例に基づいて_mm256_lddqu_si256を使用していました。後で私は_mm256_loadu_si256を発見しました。インテルイントリンシクスのガイドには、キャッシュラインの境界を越えたときに、lddquのバージョンが優れていると記載されています。 loaduのメリットは何ですか？一般に、これらの機能はどのように異なっていますか？

2熱

1答えて

NEONパックベクトルの結果をビットマップに比較

次のように2つの浮動小数点オペランドの比較の比較結果があります。すなわち：私は、比較の結果に基づいて行う必要があることは、以下を実行する必要がが neon_gt_res = vcgtq_f32(temp1, temp2); if(neon_gt_res[0]) array[0] |= (unsigned char)0x01; if(neon_gt_res[1]) array[0] |= (un

2熱

1答えて

インテル®AVXインテル®Cコンパイラ_mm256_load_si256の整数演算

配列ベースのコードを並列化するために、インテル®AVXイントリンシクス関数を使用して大規模配列を並列処理する方法を解明しようとしています。私は、256ビットのAVXベクトルが最大8並列32ビット整数/ 32ビット浮動小数点数または最大4並列64ビット倍精度をサポートすることを読みました。フロート部は私に何の問題を与えていないと正常に動作しますが、整数AVX機能は私に頭痛を与えているが、私は証明す

0熱

1答えて

SSE2 SHA1問題

私は初期化が動作しているようC. でSSE2命令でSHA1を実装しようとしていますが、私は私のアルゴリズムの最初のラウンドとして round1(testhashe, testhasha, testhashb, testhashc, testhashd, loadConstant(b[z])); をしようとすると、私はエラーを取得します。前の定数と値は正しいとチェックされますが、最後の値は間違っ

0熱

1答えて

SSE組み込み関数を使用したサイズ100 * 100の行列乗算

int MAX_DIM = 100; float a[MAX_DIM][MAX_DIM]__attribute__ ((aligned(16))); float b[MAX_DIM][MAX_DIM]__attribute__ ((aligned(16))); float d[MAX_DIM][MAX_DIM]__attribute__ ((aligned(16)))

1熱

1答えて

vld1.32 {d20-d21}とvld1q q10との差は、

私がテストしているいくつかのARM開発ボードでは、いくつかのARMディスアセンブルがあります。それらは、-march=armv7-a -mfloat-abi=hard -mfpu=neonを使用してNEON固有のvld1q_u32で生成されました。我々は（/proc/cpuinfo half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva id

2熱

1答えて

「ベクトルロングロング」の可用性はどうですか？

Power4マシンである古いPowerMac G5でテストしています。ビルドが失敗している：私はtypedefでは利用できるようにする必要があるとき、私はトラブル決定を抱えている typedef __vector unsigned long long uint64x2_p8; ： $ make ... g++ -DNDEBUG -g2 -O3 -mcpu=power4 -maltivec

0熱

1答えて

RenderScriptイントリンシックの入出力の割り当ては同じですか？

ScriptIntrinsicBlurの入力と出力に同じ割り当てを実際に使用できることに気付きました。私はフィルタリングされていない割り当てには関心がないので、この方法では別の割り当てを作成する必要はなく、メモリにはより良い方法です。しかし、それは安全ですか？私はドキュメンテーションで何も見つけることができませんでした。他の組み込み関数は、ScriptIntrinsicResizeのように、出

1熱

1答えて

avo256でacosのコードですか？

acosメソッドをイメージのすべてのピクセルに対して呼び出す必要があります。私はavx2を使用しています。 intel C++コンパイラで提供されているライブラリとは別に、acos用の_mm256コードはありますか？