マッパーの数がソースのhdfsの場所のブロックの数よりも多い場合、sqoopのエクスポートは重複を作成しますか?Sqoopのエクスポートの重複
私のソースhdfsディレクトリには2400万レコードがあり、Postgresテーブルへのsqoopエクスポートを実行すると、何とか重複レコードが作成されます。マッパーの数を24に設定しました。ソースの場所には12個のブロックがあります。
なぜsqoopが重複を作成しているのでしょうか?
- Sqoopバージョン:1.4.5.2.2.9.2-1
- Hadoopのバージョン:Hadoopの2.6.0.2.2.9.2-1
SqoopコマンドUsed-
sqoop export -Dmapred.job.queue.name=queuename \
--connect jdbc:postgresql://ServerName/database_name \
--username USER --password PWD \
--table Tablename \
--input-fields-terminated-by "\001" --input-null-string "\\\\N" --input-null-non-string "\\\\N" \
--num-mappers 24 -m 24 \
--export-dir $3/penet_baseline.txt -- --schema public;
データをエクスポートした後のpostgresテーブルのレコード数は何ですか? –
ターゲットテーブルに100万レコードが追加されています。約2,500万人。これは、実行ごとに異なります。 – Bagavathi
100万のみがエクスポートされますか? –