2016-05-23 6 views
0

内の各ノード上でコードを実行し、このような何か:は、私がPySparkを使用して、各ノード上で何かを実行したいPySpark

rdd = sqlContext.read.parquet("...").rdd 
def f (i): 
    import sys, socket 
    return [(socket.gethostname(),sys.version)] 
vv = rdd.mapPartitions(f).collect() 

が、私はそのためのファイルをロードするために持っている必要があり、なぜ私は表示されません。

どうすればよいですか?

答えて

1

古いRDDだけが必要な場合は、sc.parallelize(range(num_executors), num_executors)などを使用できます。

関連する問題