9

大規模(> 10TB)データセットのピアソン相互相関行列を、分散方式で計算するにはどうすればよいですか?任意の効率的な分散アルゴリズムの提案が評価されます。分散相互相関行列計算

更新: 私は、ApacheスパークMLIB相関

Pearson Computaation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala 
Covariance Computation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala 

の実装を読んでますが、すべての計算が一つのノードで起こっている、それは本当の意味で配布されていないように私のためにそれが見えます。

ここにいくつかの光を入れてください。私はまた、3ノードスパーククラスタ上で実行しようと、次のスクリーンショットである:データは、1つのノードでプルアップされ、その後、計算が行われていることを第2の画像からわかるように

Entire Computation timeline One the task details

。私はここにいるのですか?

答えて

5

まず、状況が正しいかどうかを確認するには、thisをご覧ください。 MPI/OpenMP:AgomezlまたはMeismyles、MapReduce:VangjeeまたはSeawolf42のいずれかの実装を参照できます。続行する前にthisと読むことも面白いでしょう。別の注記では、James's thesisは、外れ値に対して堅牢な相関を計算することに興味がある場合、いくつかの指針を提供します。

+0

私にジェームズの論文を指摘してくれてありがとう。あなたもこれに答えることができれば素晴らしいだろう:http://stackoverflow.com/questions/42428424/how-to-calculate-mean-of-distributed-data –

+0

ジェームズ論文はMaronnaとQuadrantの共分散計算について語っているが、これらの2つのアルゴリズムを理解することができます、あなたはこれらの2つのアルゴリズムが説明されているリンクを知っていますか? –