2
Gzipped .arcファイルでMapReduceタスクを実行しています。このquestionと同様、Gzip解凍は自動的に実行されるので(ファイルの拡張子は.gzなので)、改行やキャリッジリターンの問題がUnixファイルのエンコーディングの改行としてレンダリングされるようになっています。これは、ファイルに埋め込まれた特定の文字カウントに依存するため、入力を完全に読み取ることができなくなります。私はGzip圧縮解除を無効にしようとしているので、私のマッパーでそれを正しく行うことができます。私は試しました:AWS Elastic MapでのGzip入力圧縮解除の無効化
-jobconf stream.recordreader.compression=none
しかし、圧縮には影響していないようです。私の入力にGzip圧縮解除を防ぐ方法はありますか?
おかげで、-Geoff
これは、手元の問題を明確に示しています。ありがとう! – ghayes