コマンドラインユーティリティhadoop archive
を使用してharファイルを作成しました。Hadoopアーカイブファイル(HAR)ファイルの読み込みに使用するFileInputFormat
mapreduceまたはsparkでHARファイルの内容を読み取るにはどうすればよいですか? HARファイルを理解できるFileInputFormatはありますか?
答えに従ってください...ここでは、他のケースの誰かでシンプルな豚スクリプトが興味を持っている次のとおりです。
A = LOAD 'har:///user/me/my.har/*.parquet'
USING parquet.pig.ParquetLoader
('key:chararray')
;