reduction

0熱

1答えて

私は計算複雑なコースを受講する学生ではなく、そのテーマに興味があります。私は、このセクションに出くわした：と仮定我々が証明してきた問題は、を解決することは困難である必要があり、私たちは似た新しい問題を抱えています。私たちはそれが解決するのが難しいと思われるかもしれません。我々は矛盾によって議論する：新しい問題が解決しやすいであると仮定する。次に、古い問題のすべてのインスタンスを新しい問題

1熱

1答えて

CUDAで最大の行列を見つける

CUDAで始まったばかりです。今私は質問があります。私はN * Nの行列を持ち、ウィンドウスケールは8x8です。私はこの行列を複数の部分行列に細分し、この最大値を求めます。たとえば、私は64 * 64行列を持っているので、私は8 * 8スケールの8つの小行列を持ち、8つの最大値を見つけます。最後に、すべての最大値を新しい配列に保存しますが、その順序は常に変更されます。私は、正しい順序でそれらを

0熱

1答えて

還元によってCUDAの配列の総和を見つける方法

私は、配列を32 * 32の要素を持ち、値が0〜1023の縮小を使って配列の和を求める関数を実装しています。私の予想される合計値は523776ですが、私の再考は15872です、それは間違っています。ここは私のコードです： #include <stdio.h> #include <cuda.h> #define w 32 #define h 32 #define N w*h __g

1熱

1答えて

OpenMPリダクションの多態型の使用

ここには、私がしようとしているものの「最小限の」非実用的な例があります。このコードは-fopenmpフラグでコンパイルします。 #include <omp.h> #include <iostream> class A { public: virtual void operator()() = 0 ; void combine(const A & rhs) {

0熱

1答えて

動的還元

Iは最小値を表し、Iは、2つの異なる値を有する 0と1の間、それらのすべてであり、いくつかの異なる値、と呼ばれる最小値と最大値を含むベクターを有します最大値。この2つの値は時間とともに変化する可能性があります。私は動的にベクトルの次元を減らします。この値は、minとmaxで記述されたギャップ内に含まれなければなりません。例えば、時刻T = 1で私はそのベクトルを有する：ベクトルa、2つの値（

0熱

1答えて

ブール式から余分なカッコを削除するアルゴリズム

接頭辞表記にブール式があります。それはor and A B or or C D Eと言います。表記法に変換すると、私は ((A and B) or ((C or D) or E))となります。私はそれを(A and B) or C or D or Eに減らしたいと思います。私は中置表記法を減らすべきですか、接頭辞表記法から減らされた方程式を得る方が実際に簡単ですか？私はどんなアルゴリズムを使うべき

5熱

1答えて

forループを減らして並列化する方法は？

私はこのforループをOpenmpを使って並列化しようとしていますが、このループではreduceがあることを認識していますので、 "#pragma omp parallel for reduction（+、ftab）"を追加しましたが、このエラー：エラー： 'ftab'のユーザー定義リダクションが見つかりませんでした。 #pragma omp parallel for reduction(+:f

1熱

2答えて

Openmpでの削減は、コード内の同じスレッド数で異なる結果を返します。

openmpで "reduce"を使用している私のコードは、実行結果と同じ結果を返しません。ケース1：使用して "削減"（ⅱ）FUNCと sum = 0; omp_set_num_threads(4); #pragma omp parallel for reduction(+:sum) for(ii = 0; ii < 100; i++) sum = sum + func(ii)

1熱

2答えて

OpenMP forループで間違った結果が発生する

ループのパフォーマンスをopenmpと単純なコードの一部で比較したい。しかし結果は間違っています。私は既にレースコンディションを避けるためにリダクションを使用していますが、動作しません。は、ここに私のコードです： void TestMP_1(){ float afValueTmp[MP_TEST_NUM] = { 0 }; // MP_TEST_NUM = 10000 fl

0熱

2答えて

CUDA削減最適化の例

CUDA Reductionで最適化を実装しようとしていて、パート6まで正常に完了しました。皆さんにお世話になりました。 CUDAを完全に理解するには、アルゴリズムのカスケーディングと呼ばれるスライド＃31で述べたように、最終的な最適化も完了する必要があります。基本的には、スレッドごとに512個の要素があり、削減を実行する前にすべての要素を順番に合計することです。私はそれぞれのスレッドがメモリ