2017-01-11 1 views
0

私はHadoop 2.7.2を実行しています。失敗したタスクが中断された入力ファイルのポイントで、新しいHadoopタスクが再開されることを保証できますか?

10個のHadoopタスクが実行され、各タスクが1個のHDFS入力テキストファイルを処理しているとします。

たとえば、HDFS入力ファイルfile05の566行目を読み込んでいるときにタスクの1つが失敗するとします。

デフォルトではどうなりますか? Hadoopの2番目のタスクは、file05の567行目で再開されますか?または、2番目のタスクの試行はfile05の最初の行で開始されますか?

ユースケースによっては、失敗した処理が途切れる場所を選択することができます。あるいは、別のケースでは、そのファイルを新たに処理したいことがあります。

Hadoopの2番目のタスクの試みがfile05の567行目で再開されるようにするにはどうすればよいですか?

2番目のタスクの試行がfile05の最初の行から始まることを確認するにはどうすればよいですか?

答えて

1

タスクが失敗した場合、アプリケーションマスタは再起動を再試行します。タスクは新たに再開されます。再試行が許可された回数のパラメータがあります。それを超えると、アプリケーション全体が強制終了されます。

+0

私は上記の例のfile05の1行目から始めると仮定します。 –

+0

はい – BDBoss

関連する問題