私はSpark 1.5.2で動作するアプリケーションをチューニングしています。私は全く同じスクリプトを2回実行しましたが、driver.memoryのパラメータは異なります。SPARK:DRIVER MEMORYの数を増やすとパフォーマンスが低下する可能性がありますか?
- 初回:driver.memory = 15グラム/実行時間:6,1h
- セカンド時間:driver.memory = 2グラム/実行時間:5,7h
スクリプトの目標Hiveテーブルに保存する前に、新しいテーブルで同じテーブルに結合し、それを反復処理するだけです。
私が与えたメモリが多ければ多いほど、それは良いものです。しかし、このアイデアは、テストによれば一種の偽りです...実際には、ドライバのメモリはそれに責任がありますか?または+/-ランダムに実行するプロセスは...?
増やすメモリが厳しくベンチマークと全体的なパフォーマンスの両方に影響を与えることができます。ドライバーのフルGCはすべてのドライバークラスタマッサージを一時停止し、結果の取得を遅らせる可能性があります。より詳細な情報が含まれていますが、これらがpySparkにどのように適用されるかはわかりません –