大規模(> 10TB)データセットのピアソン相互相関行列を、分散方式で計算するにはどうすればよいですか?任意の効率的な分散アルゴリズムの提案が評価されます。分散相互相関行列計算
更新: 私は、ApacheスパークMLIB相関
Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala
の実装を読んでますが、すべての計算が一つのノードで起こっている、それは本当の意味で配布されていないように私のためにそれが見えます。
ここにいくつかの光を入れてください。私はまた、3ノードスパーククラスタ上で実行しようと、次のスクリーンショットである:データは、1つのノードでプルアップされ、その後、計算が行われていることを第2の画像からわかるように
。私はここにいるのですか?
私にジェームズの論文を指摘してくれてありがとう。あなたもこれに答えることができれば素晴らしいだろう:http://stackoverflow.com/questions/42428424/how-to-calculate-mean-of-distributed-data –
ジェームズ論文はMaronnaとQuadrantの共分散計算について語っているが、これらの2つのアルゴリズムを理解することができます、あなたはこれらの2つのアルゴリズムが説明されているリンクを知っていますか? –