2016-05-04 25 views
0

コマンドラインユーティリティhadoop archiveを使用してharファイルを作成しました。Hadoopアーカイブファイル(HAR)ファイルの読み込みに使用するFileInputFormat

mapreduceまたはsparkでHARファイルの内容を読み取るにはどうすればよいですか? HARファイルを理解できるFileInputFormatはありますか?


答えに従ってください...ここでは、他のケースの誰かでシンプルな豚スクリプトが興味を持っている次のとおりです。

A =  LOAD 'har:///user/me/my.har/*.parquet' 
     USING parquet.pig.ParquetLoader 
     ('key:chararray') 
     ; 

答えて

2

のMapReduceでのHadoopアーカイブの使用Hadoop Archives and MapReduce

からされるのと同じくらい簡単デフォルトのファイルシステムとは異なる入力ファイルシステムを指定します。 HDFSに格納されたhadoopアーカイブが/user/zoo/foo.harにある場合、このアーカイブをMapReduce入力用に使用するには、入力ディレクトリをhar:///user/zoo/foo.harと指定する必要があります。 Hadoop Archivesはファイルシステムとして公開されているので、MapReduceはHadoop Archivesのすべての論理入力ファイルを入力として使用できます。

したがって、同じファイルのHDFSディレクトリを読み込むために使用するFileInputFormatを使用することができます。

関連する問題