reduction

    0

    1答えて

    私は計算複雑なコースを受講する学生ではなく、そのテーマに興味があります。私は、このセクションに出くわした: と仮定我々が証明してきた問題は、 を解決することは困難である必要があり、私たちは似た新しい問題を抱えています。私たちはそれが解決するのが難しいと思われるかもしれません。 我々は矛盾によって議論する:新しい問題が解決しやすい であると仮定する。次に、古い 問題のすべてのインスタンスを新しい問題

    1

    1答えて

    CUDAで始まったばかりです。今私は質問があります。 私はN * Nの行列を持ち、ウィンドウスケールは8x8です。私はこの行列を複数の部分行列に細分し、この最大値を求めます。 たとえば、私は64 * 64行列を持っているので、私は8 * 8スケールの8つの小行列を持ち、8つの最大値を見つけます。最後に、すべての最大値を新しい配列に保存しますが、その順序は常に変更されます。私は、正しい順序でそれらを

    0

    1答えて

    私は、配列を32 * 32の要素を持ち、値が0〜1023の縮小を使って配列の和を求める関数を実装しています。 私の予想される合計値は523776ですが、私の再考は15872です、それは間違っています。ここ は私のコードです: #include <stdio.h> #include <cuda.h> #define w 32 #define h 32 #define N w*h __g

    1

    1答えて

    ここには、私がしようとしているものの「最小限の」非実用的な例があります。 このコードは-fopenmpフラグでコンパイルします。 #include <omp.h> #include <iostream> class A { public: virtual void operator()() = 0 ; void combine(const A & rhs) {

    0

    1答えて

    Iは最小値を表し、Iは、2つの異なる値を有する 0と1の間、それらのすべてであり、いくつかの異なる値、と呼ばれる最小値と最大値を含むベクターを有します最大値。この2つの値は時間とともに変化する可能性があります。 私は動的にベクトルの次元を減らします。この値は、minとmaxで記述されたギャップ内に含まれなければなりません。例えば 、 時刻T = 1で私はそのベクトルを有する:ベクトルa、2つの値(

    0

    1答えて

    接頭辞表記にブール式があります。それはor and A B or or C D Eと言います。表記法に変換すると、私は ((A and B) or ((C or D) or E))となります。私はそれを(A and B) or C or D or Eに減らしたいと思います。私は中置表記法を減らすべきですか、接頭辞表記法から減らされた方程式を得る方が実際に簡単ですか?私はどんなアルゴリズムを使うべき

    5

    1答えて

    私はこのforループをOpenmpを使って並列化しようとしていますが、このループではreduceがあることを認識していますので、 "#pragma omp parallel for reduction(+、ftab)"を追加しましたが、このエラー: エラー: 'ftab'のユーザー定義リダクションが見つかりませんでした。 #pragma omp parallel for reduction(+:f

    1

    2答えて

    openmpで "reduce"を使用している私のコードは、実行結果と同じ結果を返しません。 ケース1:使用して "削減"(ⅱ)FUNCと sum = 0; omp_set_num_threads(4); #pragma omp parallel for reduction(+:sum) for(ii = 0; ii < 100; i++) sum = sum + func(ii)

    1

    2答えて

    ループのパフォーマンスをopenmpと単純なコードの一部で比較したい。しかし結果は間違っています。 私は既にレースコンディションを避けるためにリダクションを使用していますが、動作しません。 は、ここに私のコードです: void TestMP_1(){ float afValueTmp[MP_TEST_NUM] = { 0 }; // MP_TEST_NUM = 10000 fl

    0

    2答えて

    CUDA Reductionで最適化を実装しようとしていて、パート6まで正常に完了しました。皆さんにお世話になりました。 CUDAを完全に理解するには、アルゴリズムのカスケーディングと呼ばれるスライド#31で述べたように、最終的な最適化も完了する必要があります。 基本的には、スレッドごとに512個の要素があり、削減を実行する前にすべての要素を順番に合計することです。 私はそれぞれのスレッドがメモリ