私はYarnクラスターで1000ジョブをスケジュールしようとしています。私は毎日1000以上のジョブを同時に実行し、リソースを管理するために糸を使いたい。 hdfsから別のカテゴリの1000のファイルのために私はpythonからsparkの送信コマンドを作成して実行しようとしています。しかし、私はドライバメモリを使用して送信するスパークのためにメモリエラーから抜け出しています。スパークヤーンで1000ジョブが実行中
スパークヤーンクラスターで1000ジョブをスケジュールするにはどうすればよいですか?私は、火花とともにオージー・ジョブ・スケジューリング・フレームワークを試してみましたが、HDPで期待通りに動作しませんでした。
私たちが使用したコマンドは、以下に示すpythonスクリプトから生成します。 /usr/hdp/2.4.2.0-258/spark/bin/spark-submit --class xxx.xxx.xxx - マスター糸クラスター - 合計 - 実行プログラムコア6 - 実行ファイル - メモリ2G --driver-メモリ1G - キューのデフォルトxxx-1.0.0.jar –
velmurugan