私はpysparkのDense行列(100 * 100)を持っていますが、repartition
を10個の行にそれぞれ10個のグループに分けたいと思います。pysparkの密行列を再分割する
from pyspark import SparkContext, SparkConf
from pyspark.mllib import *
sc = SparkContext("local", "Simple App")
dm2 = Matrices.dense(100, 100, RandomRDDs.uniformRDD(sc, 10000).collect())
newRdd = sc.parallelize(dm2.toArray())
rerdd = newRdd.repartition(10)
100個の要素を含むrerdd
に上記のコードをもたらします。私はこの行列dm2
を行単位の分割ブロック(例えば、パーティション内に10行)として提示したいと思います。
通常のnumpy行列を使用して試したところ、RDDに変換して分割しました。 http://stackoverflow.com/questions/36739687/partition-a-matrix-rdd-in-pyspark – Mitty