2016-05-01 5 views
0

HDFSの内部にjsonファイル(サイズ2-3GB)が保存されています。私のハエは、私はマップがシーケンシャルファイルにこのJSONファイルを変換してからJSONオブジェクトを読み取るために減らす記述しようとしていますJasonをhadoopのシーケンシャルファイルに変換する

{ "DateTime" : 24-08-2015T00:00:00, "Cost":53.09,"UID":9,"Channel":"some Channel"} 
{ "DateTime" : 25-08-2015T00:00:00, "Cost":54.09,"UID":8,"Channel":"some Channel2"} 
{ "DateTime" : 24-08-2015T00:00:00, "Cost":56.09,"UID":7,"Channel":"some Channel3"} 

この形式のように見えます。私はgsonを使ってより速く実行する必要があるので、javaオブジェクトでそれを変換するには時間がかかります。私はそれについてgoogledとJAQLは同じことを行うことができますが、私はそれを行うためにJavaのMRコードを取得していない。私はJAQLのmaven jarも見つけられませんでした。私は私のサーバー上で明示的に設定することはできません。 Javaコードを使用して実現する方法はありますか? Jaqlは、Hadoopの

このプロジェクトはJaqlを使用してHadoopの中で複数の小さいファイルを処理する非効率性を乗り越えるのに役立ちます

のためのMapReduceを使用して のApacheティカの統合:

答えて

1

私はこのプロジェクトのTika
説明を提供したいです。さらに、Apache TikaをJaqlに統合することで、Hadoopでバイナリドキュメントの処理と分析が可能になり、MapReduceジョブが生成されます。 plsサンプルをチェック

関連する問題