Sparkから寄木細工データを読み込むときのパーティション数

Spark 1.6.0を使用しています。分割された寄木細工データを読み取るためのDataFrame API。Sparkから寄木細工データを読み込むときのパーティション数

どのくらいのパーティションが使用されているのでしょうか。、GB

2182ファイル
196パーティション
2私がcountを実行するときので、そのスパークは2182のパーティションを使用しているようだ：

ここでは、私のデータにいくつかの数字ですジョブは2182個のタスクに分割されます。 df.rdd.partitions.length

によって確認されているように見えるだ

はそれが正しいですか？すべての場合？

はいの場合、データ量が大きすぎます（減らすにはdf.repartitionを使用する必要があります）。

2016-11-14 Yann Moisan

はい再パーティション方法を使用して、使用可能なリソースとのバランスが取れるようにタスクの数を減らすことができます。ノードごとに実行者の数を定義する必要もあります。タスクを並列に実行し、最大限のリソースを利用するように、アプリケーションを送信しながらノードごとのメモリとノードごとのメモリを使用します。

出典

2016-11-14 13:18:23

Sparkから寄木細工データを読み込むときのパーティション数

答えて

関連する問題