2017-12-19 17 views
0

私はKuduテーブルにデータをロードしようとしていますが、奇妙な結果を得ようとしています。私はSqoopによってインポート4個のHDFSファイルから外部表を作成したインパラコンソールでHDFSからKuduにデータをロードする

drop table if exists hdfs_datedim; 
create external table hdfs_datedim 
(...) 
row format 
delimited fields terminated by ',' 
location '/user/me/DATEDIM'; 

SELECT COUNT(*)は、そこに存在行の多くを私に語りました。照会するとデータはよく見えます。

私は標準を使用した結果に

INSERT INTO impala_kudu.DATEDIM 
SELECT * FROM hdfs_datedim; 

をコピーするためにSELECT COUNT(*)はimpala_kudu.DATEDIMは4行(HDFS 内のファイル数ではない内の行数を持っている私に指示に選択。

任意のアイデア?

+0

結果が実際に正しい形式になっているかどうかを調べるには、 'select * from hdfs_datedim limit 10 'を実行できますか? – Amos

+0

はい。 'Select Count(*)'は4つではなく17,000を返します。 'Select * ... limit 10'は完璧に見える10個の行を返します。私も同じことを考えました。ソーステーブルが正しく表示されますが、私は経験不足で簡単に間違っている可能性があります – Jay

+0

これはkuduテーブルにのみ発生しますか?私のバグのように聞こえる。 – Amos

答えて

0

sqoopで作成したデータは、カバーの下にあったテーブルには不十分な形式のCSVファイルの列だった。輸入が原因フラットファイル内のデータのエラーなしに失敗しました。Dに気をつけろ文字列に区切り文字が埋め込まれた形式とテキスト文字列を取得しました。

関連する問題