私は、合計12個のコアと44 GBのメモリを持つ3ノードの小規模クラスタを持っています。私はhdfs(5メガバイト)から小さなテキストファイルを読み込み、kmeansアルゴリズムを実行しています。エグゼキュータの数を3に設定し、テキストファイルを3つのパーティションに分割しました。アプリケーションUIは、エグゼキュータの1人だけがすべてのタスクを実行していることを示しています。ここで は、アプリケーションのGUI enter image description here のスクリーンショットであり、ここでジョブズUIです: enter image description here 誰か他の人がアイドル状態になっている間、私のタスクはすべて1つのエグゼキュータで実行されている理由は、私が把握助けることができますか?ありがとう。スパーク・スタンドアロン・クラスタ、1つのエグゼキュータ上で実行中のジョブ
0
A
答えて
1
ファイルを12個のパーティションに再分割しようとします。 3つのパーティションがあり、各ノードに4つのコアがある場合は、1つのノードですべてのタスクを実行するだけで十分です。 Sparkは、1つのコアに1つのパーティションとして作業を大まかに分割します。
関連する問題
- 1. スパークでネストされたジョブを実行中
- 2. クラスタ上で複数のparpoolジョブを実行する
- 3. クラスタ内でジョブを実行中に強制ロードRパッケージ
- 4. クラスタで実行中のプロジェクトのアップデート
- 5. スパーク:ジョブ
- 6. Delayed :: Herokuで2回実行中のジョブ?
- 7. DSE 4.8 SparkクラスタでPythonジョブを実行する際のエラー。
- 8. スパーク・スタンドアロン・モードでのcsvデータ処理
- 9. スタンドアロンHadoopクラスタのシステム構成
- 10. Apacheのスパークとメゾスが1つのノードで実行されています
- 11. 長時間実行中のジョブのPHP Cronジョブの代わり
- 12. googleアプリケーションエンジンでmapreduceジョブを実行中
- 13. Quartzでクラスタ内で現在実行中のすべてのジョブのリストを取得します
- 14. スパークは紡績糸クラスタ上で動作しますexitCode = 13:
- 15. 同じ列1を1つの行に共有するクラスタ行
- 16. 1つのジョブを並列に実行する
- 17. jenkinsのパイプラインで実行中の2つのジョブは安全ですか?
- 18. クロノスでスパーク・サブミットを実行
- 19. クラスタ内でジョブを実行および監視するためのツール
- 20. 一度にそのセッションで1つのことしか実行しないセッションベースのエグゼキュータを書く方法は?
- 21. 複数のトリガーで1つのジョブを実行しています
- 22. は、私は、リモートサーバー上のスタンドアロンのJavaアプリケーションを実行するリモートサーバー
- 23. Linux上で実行中のプログラムのディレクトリ?
- 24. Windowsで実行中のC#とprotobufでLinux上で実行中のC
- 25. jbpm複数のマシンと1つの共通DB内のジョブ実行者
- 26. モノでのスタンドアロン実行可能ファイルlinux?
- 27. ディスパッチャを使用したスパーク・メゾ・クラスタ・モード
- 28. スパーク:私はスパーク1.4.1上で次のコマンドを実行しようとすると、DATAFRAME
- 29. スパークの実行ファイルのメモリ設定
- 30. もう1つのフォーラムと既存の実行中のブログエンジン
このような重いソフトウェアスタックを、それほど大きなデータや小さなクラスタに使用していないのはなぜですか? –
スパークコードがデータの小さなサブセットで正しく実行されているかどうかを確認し、それを大きなデータで実行したいのです。 –
私は研究のためにkmeansのバリエーションを実際に実行しています。私はちょうど私のスパークコードがデータの小さなサブセットで正しく動作しているかどうかを調べ、それをより大きなデータで実行したいのです。なぜ私のアプリケーションが非常に多くの仕事を生み出しているのか理解できませんでした。しかし、今私はそれについてもっと考えると、私のアルゴリズムは収束しないので、スパークが非常に多くの小さな仕事を生み出すと思います。ジョブが小さすぎるため、1つのエグゼキュータでのみジョブを実行しています。ご協力ありがとうございました。 –