2016-06-23 3 views
0

同じポイントに1つのプロセスがあります。私が知っている情報は、詳細ページ(ダッシュボードのUIを参照)のタスクのインデックスです。スパーク:特定のインデックスでタスクをデバッグ/ログする方法

どのように特定のインデックスでそのタスクを正確にデバッグ/ロギングできますか?その後で回答に基づいて

How to get ID of a map task in Spark?

私は、タスクの情報を取得する方法を見ることができます。しかし、そのオブジェクトで参照されるUIダッシュボードのIDは何ですか?

は、ID = org.apache.spark.scheduler.TaskInfo.idおよびIndex = org.apache.spark.schedulerTaskInfo.partionId?

答えて

0

ダッシュボードのIDは、sparkのパーティションを参照します。ジョブが起動されるたびに、入力データがパーティション分割され、パーティション数に応じてタスクIDにマップされます。

スパークジョブをデバッグするのは簡単な作業ではありません。アルゴリズムによって処理されたデータのマップを減らすタスクです。事実の後であなたの仕事をデバッグするためにログを追加するのはかなり簡単です。ログは、ワーカーまたは各エグゼキュータの作業ディレクトリに収集する必要があります。

関連する問題