2012-03-27 16 views
1

Hadoopには圧縮と解凍のサポートが組み込まれていますが、これはマッパー出力(いくつかのプロパティを設定)に関するものですね。Hazard/PIGでgzipデータを圧縮/解凍するのは透明ですか?

圧縮データの読み込みや圧縮データの出力に使用できる特定のPIGロード/ストア関数があるのでしょうか?

答えて

6

PigStorageは、ファイル名を調べることによって圧縮された入力を処理します。

  • * .bz2/* .BZ - org.apache.pig.bzip2r.Bzip2TextInputFormat
  • 他のすべてがorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat を使用しています - これは.gzをしてジッピー処理できるo.a.h.mapreduce.TextinputFormat拡張ファイルあなたはコーデックがインストールされている場合

出力は、いくつかのプロパティを介して処理されます。

  • output.compression.enabled - 真/偽
  • output.compression.codec - PigStorage.javaを掘りすることがありますが、それまで感じている場合は、コーデックのクラス名は(gzipのためorg.apache.hadoop.io.compress.GzipCodec

使用しますあなたに興味のあるもの

+0

http://my.safaribooksonline.com/book/-/9781449317881/8dot-making-pig-fly/id2907215は、中間圧縮 –