私は1つのマスターと3つのスレーブを持っています(それぞれ4つのコア)sparkでパーティションサイズを増やし、パーティション数を減らす利点は何ですか?
デフォルトでは、私のスパーククラスタの最小パーティションサイズは32MBで、ファイルサイズは41GBです。 だから、私は、パーティションのサイズを大きくし、パーティションの数を減らすことの利点は何ですか64Mバイト
にMinSizeプロパティを変更することにより、sc.hadoopConfiguration.setLong("mapreduce.input.fileinputformat.split.minsize", 64*1024*1024)
val data =sc.textFile("/home/ubuntu/BigDataSamples/Posts.xml",800)
data.partitions.size = 657
をパーティションの数を減らすためにしようとしています。 私のパーティションが約1314のときには2-3分ほどの時間がかかり、パーティション数を減らしても同じ時間がかかります。