0
128MBのHDFS分割ファイルを持ち、sc.textFile(xxx、4)を発行すると、実際にはどうなりますか?この場合、RDDは実際にパーティション化の意味で何を意味しますか? 4つの処理区画はまだか、1つだけですか?SPARK RDDパーティションを1つのHDFSに分割
128MBのHDFS分割ファイルを持ち、sc.textFile(xxx、4)を発行すると、実際にはどうなりますか?この場合、RDDは実際にパーティション化の意味で何を意味しますか? 4つの処理区画はまだか、1つだけですか?SPARK RDDパーティションを1つのHDFSに分割
あなたは、このようなコードを使用する場合:
JavaRDD<String> in = sc.textFile(xxx,4);
in.persist();
を次に、あなたのRDDは4つのパーティションを持っています。それぞれ32 MBのサイズにする必要があります。次に、あなたが何かを行うことができ、この好き:あなたがローカルでローカルに、あなたのコードを実行すると、[4]、そしてカウントが並列に4つのプロセス(タスク)で実行されます
rdd.count()
を。
OKですが、テキストの状態はデフォルトでHDFSブロックサイズになるため、これは当てはまりません。あなたと一緒に。次に、ローカル[4]を使用していない場合は何ですか?パーティションは、すべて同じノード上の4つのパーツまたは1つのパーツのメモリに開始、終了などのポインタで格納されます。 MRの方がやや簡単に思える。 @シモンシフ – thebluephantom