2016-06-29 1 views
1

jsonファイルがあります。ボリュームは約500 TBです。私は完全なセットをハイブデータウェアハウスにロードしました。hadoop - jsonデータがハイブウェアハウスにロードされていることを確認します。

ハイブウェアハウスにロードされたvalidate or test the dataの仕組みはどうですか? testing strategyはどうすればいいですか?

クライアントは、jsonデータの検証を希望します。ハイブにロードされたデータが正しくないかどうか。何かミスはありますか?はいの場合、それはどのフィールドですか?

助けてください。

+0

詳細 –

+0

私の質問が更新されました。 – Ajay

+0

をチェックしてください。このデータセットではトータルテストを行うことができず、ランダムサンプルテストに行く必要があります。いくつかのハイブのクエリを書いてそれを検証することができます。 –

答えて

0

データはハイブテーブルにどのように格納されていますか?

JSON文字列を受け取り、データを検証し、エラーメッセージとともに別の文字列を返したり、JSON文字列が整形式の場合は空の文字列を返すHive UDF関数を作成することもできます。ここで

はHVE UDFのチュートリアルです:場所にハイブUDF機能付 http://blog.matthewrathbone.com/2013/08/10/guide-to-writing-hive-udfs.html

することができますようにexecutequeries:あなたのプレーニングは、あなたがより多くのそれを説明してくださいすることができますカバーするためにテスト領域が何であるかを

select strjson, validateJson(strjson) from jsonTable where validateJson(strjson) != ""; 
関連する問題