私は5ノードクラスタを持っています.pysparkを使用してデータフレームに100k csvファイルをロードし、いくつかのetl操作を実行し、出力を寄木細工ファイルに書き込みます。 データフレームをロードすると、各エグゼキュータが20kレコードを処理するすべてのエグゼキュータ間でデータセットを均等に分割できます。すべてのエグゼキュータで均等にpyspark分割ロード
答えて
可能であれば、入力データが小さいファイルに分割されていることを確認してください。 このようにして、各エグゼキュータは1つのファイルを読み込んで処理します。あなたが入力ファイルを変更できない場合は
、あなたはdf.repartition(5)
を呼ぶが、それはあなたが `配分(5)`使用することができ、高価なシャッフル操作
あなたが言ったように、再パーティション分割を追加する時間がかかります。データがすべての5つのノードに均等に分散されていれば、プロセスはより速く終了すると考えていました。 df = sqlContext.read.format( 'com.databricks.spark.csv')。load( "/ dwo_poc/rows.csv") dz = df.repartition(5) dz.show(100) – srini
それはそうです再シャットルのコストは、並列性の利点よりも高価で、負荷を均等に分散するように見えます。私の理解が間違っていれば私を訂正してください。 – srini
すべてに合った回答は一つもありません。ワークロードに最も適したものを試してみるのがベストです – lev
- 1. スパーク再分割ですべてのエグゼキュータにデータが分割されない
- 2. 均等に小数を分割する
- 3. スイングコントロールを均等に分割する
- 4. オーバーフローで画面を均等に分割する
- 5. テキストを一定数の行に均等に分割します
- 6. Python3、均等分布の分割データセット、シャッフルなし
- 7. 各要素に均等に領域を分割する
- 8. スレッド間で不均等数を分割する
- 9. Android ListViewデバイダを均等に分割する
- 10. 均等配分アルゴリズム
- 11. 小さいスペースの均等に分割されたdiv
- 12. Zurb電子メールテンプレートの列幅が均等に分割されています
- 13. Scalaの範囲を均等に分割した連続する範囲に分割する
- 14. 均等割り算の天井番号
- 15. 数字を等分に分割する
- 16. データフレームを等分に分割する
- 17. Javaでは整数の中の桁数を均等に整数に分割しようとしています
- 18. 2Dのランダムな点の均等分布
- 19. x軸上のパーセンタイルラベルの均等分配
- 20. レイアウト内のビューの均等分布
- 21. Excel VBAで複数の列に均等に要素を均等に分散する
- 22. 辞書キーに項目を均等に割り当てる
- 23. コンテナに値を均等に分配するアルゴリズムですか?
- 24. Python:できるだけ均等に分布するリストのサブセット?
- 25. Pysparkで複数の行に分割する方法
- 26. 5分で均等に分けられない分を確認する
- 27. Murmur Hashの共同ドメインは、均等に分散しており、すべてを網羅していますか?
- 28. 関数/プロセス間でデータを均等に再分配するアルゴリズム
- 29. 長さに基づいて文字列を2つに均等に分割する方法
- 30. ナビゲーションオプションを2行に均等に分割するにはどうすればよいですか?ここ
の原因となりますことを心に留めておくことができます。 – philantrovert