私は4コアを持つ8つのエグゼキュータを持っていますが、32にrddパーティションを再分割します。私は再分割されたデータに対して次のアクションを実行すると思います。しかし、いつかは3人のエグゼクティブが参加しているようですが、時には4人以上ではありません。スパーク再分割ですべてのエグゼキュータにデータが分割されない
すべてのエグゼキュータでデータを分割するにはどうすればよいですか?
rdd.repartition(32).foreachPartition {一部=> updateMem(一部) }最後の部分はmemsqlにinser /更新を呼び出します。
K/Vのペアのように、フォーマットの任意の並べ替えでRDDですか?あなたはキーの数が少ないかもしれないので、再分割は同じエグゼキュータ上に同じキーを置きます。あるいは、あなたのキーが32から数のハッシュ値を持つように信じられないほど不運になるかもしれません。 –
RDDはケースクラスのタイプです。ケースクラス内のデータは非常にユニークで、ほぼ95%です。 – subhankar
ここにはいくつのマシンがありますか?これらのマシンには、ほぼ同等のデータが存在しますか?データ地域がここでその部分を果たしているのかどうかは疑問です –