HDFSの内部にjsonファイル(サイズ2-3GB)が保存されています。私のハエは、私はマップがシーケンシャルファイルにこのJSONファイルを変換してからJSONオブジェクトを読み取るために減らす記述しようとしていますJasonをhadoopのシーケンシャルファイルに変換する
{ "DateTime" : 24-08-2015T00:00:00, "Cost":53.09,"UID":9,"Channel":"some Channel"}
{ "DateTime" : 25-08-2015T00:00:00, "Cost":54.09,"UID":8,"Channel":"some Channel2"}
{ "DateTime" : 24-08-2015T00:00:00, "Cost":56.09,"UID":7,"Channel":"some Channel3"}
この形式のように見えます。私はgsonを使ってより速く実行する必要があるので、javaオブジェクトでそれを変換するには時間がかかります。私はそれについてgoogledとJAQLは同じことを行うことができますが、私はそれを行うためにJavaのMRコードを取得していない。私はJAQLのmaven jarも見つけられませんでした。私は私のサーバー上で明示的に設定することはできません。 Javaコードを使用して実現する方法はありますか? Jaqlは、Hadoopの
このプロジェクトはJaqlを使用してHadoopの中で複数の小さいファイルを処理する非効率性を乗り越えるのに役立ちますのためのMapReduceを使用して のApacheティカの統合: