sse

    0

    2答えて

    _mm_store_ps,_mm_add_psなどの__関数を克服する簡単な同等のCコードは何ですか?等価なCコードを使用して関数を指定してください。 なぜこれらの機能が使用されていますか?

    5

    1答えて

    でのサポート、私は以下のようにコードを参照してください。 #include "stdio.h" #define VECTOR_SIZE 4 typedef float v4sf __attribute__ ((vector_size(sizeof(float)*VECTOR_SIZE))); // vector of four single floats typedef union

    11

    3答えて

    おはようございます。私はどこ0.21 < K0 < 21、0 < K1 <〜2000、およびxは、14^2 <整数である、[X^K0 + K1]機能 をLog10を近似しようとしています。 k0 &k1は一定である。実際の目的では、k0 = 2.12、k1 = 2660と仮定することができます。希望の精度は5 * 10^-4相対誤差です。 この関数はLog [x]と事実上同じですが、0に近い点を除

    3

    1答えて

    私が現在取り組んでいるプロジェクトでは、要素を挿入できるソート済みの配列(たとえば、C++のstd :: lower_bound) 。 SSEを使用して私のアルゴリズムを高速化するのはかなり魅力的なようですが、uint32の配列はプロセッサのキャッシュラインのサイズと同じサイズです。 私はこれまでSSE命令を使ったことがないので、この関数のSSE実装がどのように見えるかわかりません。 SSEに合わ

    6

    3答えて

    4dベクトルを正規化しようとしています。 私の最初の承認は、SSE組み込み関数を使用することでした。これは、ベクトル演算に2倍のスピードをもたらしました。私は解体をチェックして、それは私が期待するかのように見える(v.v4が入力されている)(GCCを使用して)(こののすべてがインライン化された) //find squares v4sf s = __builtin_ia32_mulps(v.v4,

    3

    5答えて

    私はいくつかのsseベクトル3の計算をしています。 一般に私のベクトルの4桁目は1.0fに設定されています。これは私の数学の仕事の大部分を占めますが、0.0fに設定する必要があることがあります。 だから私のようなものに変更したい:私は何を思っていた(32.4f、21.2f、-4.0f、0.0fを)に を (32.4f、21.2f、-4.0f、1.0F)をそうすることへの最善の方法は、次のようになり

    2

    1答えて

    私は/ proc/cpuinfoのフラグを解析し、gccに渡すために利用可能なsse命令セットのリストを構築したいと思うMakefileを得ました(-msse -msse2など)。 DUMM = $(foreach tag,$(SSE_TAGS), ifneq ($(shell cat /proc/cpuinfo | grep $(tag) | wc -l),"")

    0

    2答えて

    parallel_forにSSE2組み込み関数を使用していますか? SSE2レジスタの数は限られているため、パフォーマンス上のペナルティが生じますか? 各CPUダイには独自のSSE2レジスタがありますか?

    3

    2答えて

    GCCでは、SSE命令のベクタ型として構造体またはクラスを使用できますか?以下のような 何か:むしろ正規のより typedef struct vfloat __attribute__((vector_size(16))) { float x,y,z,w; } vfloat; : typedef float v4sf __attribute__ ((vector_size(16)))

    4

    3答えて

    私はYUVをRGBに変換するために書いたいくつかのSSEコードを最適化することを検討しています(プレーンとパックドYUV関数の両方)。 現時点ではSSSE3を使用していますが、それ以降のSSEバージョンでは便利な機能があればOKです。 私は主に、プロセッサのストールなどをどのように処理するかに興味があります。 SSEコードの静的解析を行うツールについては誰でも知っていますか? ; ; Copyr