2017-02-03 12 views
0

私の問題は、500k行のOracleテーブルがあることです。私はそれを寄木張りファイルとしてHDFSにインポートするようにsqoopを設定しました。私は--num-partitionパラメータを32に設定しました.32個のパーケットファイルを取得しましたが、そのうちの1つは28 MB、それ以外は2-3 KBです。ここでsqoopインポートの寄木細工のサイズ

は私のsqoopコマンドです:

bin/sqoop import --connect <JDBC> --username <USER> --password <PASSWD> --table <TABLE> --target-dir <TARGET_DIR> -m32 --as-parquetfile --delete-target-dir --outdir <DIR> 

私の質問は、このファイルサイズの理由何ができるか、ですか?

答えて

0

データが一様に配信されていないことを示します。

コマンドには--split-byという列が見つかりませんでした。したがって、分割を主キーで行うと仮定します。分割は、基本的には範囲照会を同時に実行することによって行われます。範囲クエリの1つが最大データをフェッチするため、サイズは28 MBです。

関連する問題