2

Gzipped .arcファイルでMapReduceタスクを実行しています。このquestionと同様、Gzip解凍は自動的に実行されるので(ファイルの拡張子は.gzなので)、改行やキャリッジリターンの問題がUnixファイルのエンコーディングの改行としてレンダリングされるようになっています。これは、ファイルに埋め込まれた特定の文字カウントに依存するため、入力を完全に読み取ることができなくなります。私はGzip圧縮解除を無効にしようとしているので、私のマッパーでそれを正しく行うことができます。私は試しました:AWS Elastic MapでのGzip入力圧縮解除の無効化

-jobconf stream.recordreader.compression=none 

しかし、圧縮には影響していないようです。私の入力にGzip圧縮解除を防ぐ方法はありますか?

おかげで、-Geoff

答えて

2

私は潜在的な問題を特定してきた、と疑問に周りの作業は、あなたが参照しました:

を基本的にその問題簡単に修正できるPipeMapper.java

+1

これは、手元の問題を明確に示しています。ありがとう! – ghayes