2012-01-04 9 views
0

gzファイルを入力として使用するmapreduceを作成しています。 gzファイルの一部が実際に破損しています。しかし、マッパはそれに気付かず、正常に仕事を終えました。 このようなファイルをhadoopでどのように処理するか尋ねてもよろしいですか? gunzipを使用してコマンドラインからエラーgzファイルを開くことはできません。 ありがとう〜hadoop mapreduceジョブの入力用gzファイルについて

答えて

0

Hadoopはマッパーが実行しているノードにgzファイルを転送します。ファイルを解凍して内容を反復処理します。各ファイルは単一のマッパーによって操作されます。

ファイルが壊れていると、マッパーは実際にマッパーを実行することはできません(マッパーが起動したと仮定すると、Hadoopはファイルを解凍しようとします。

setupcleanup関数には、「空の」ファイルを検出するためのコードが必要な場合があります。このファイルには、空のファイルが含まれています。 'ファイルを使用して、ジョブが実際にデータを処理していないことを示すカウンタを増やすことができます。

関連する問題