カフカトピックからネストされたJsonメッセージをハイブにパースする方法

私はストリーミングやスカラーを始めるのにかなり新しいです。私は私のJSONデータは次のようになりますJSONデータとカフカtopic.Iから入ってくる他のいくつかのランダムなログデータはこのカフカトピックからネストされたJsonメッセージをハイブにパースする方法

val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet).map(_._2).filter (x => x.matches("^[{].*"))

のようなだけでJSONデータをフィルタリングすることができたています。

{"time":"125573","randomcol":"abchdre","address":{"city":"somecity","zip":"123456"}}

私はjsonデータを解析してハイブテーブルに入れようとしています。誰かが正しい方向に私を向けることができます。ありがとう

出典

2016-10-14 Riyan Mohammed

質問がありますか？ – Ashalynd

私はjsonデータを解析してハイブテーブルに入れようとしています。 –

これを行う方法は複数あります。

必須の列とこのデータの場所を指す外部ハイブテーブルを作成します。
テーブルを作成するときに、デフォルトのJSON serdeを使用し、get_json_objectハイブ関数を使用して、この生データを最終テーブルにロードすることができます。機能の詳細

あなたはアブロserdeを試してみて、ハイブテーブルを作成するためにあなたのJSONメッセージに従ってアブロスキーマを言及する可能性があるためthisを参照してください。 avro serdeの例については、thisを参照してください。

希望します。

出典

2016-10-14 18:44:44

もしSparkでの解析をしようとしているのであれば...私は何をしますか？ –

カフカトピックからネストされたJsonメッセージをハイブにパースする方法

答えて

関連する問題