2
私はbqコマンドラインを使用していて、大量のjsonファイルを1日に1つのテーブルに挿入しようとしています。BigQueryを使用して100万行を高速に挿入する
私のアプローチ:
- リスト即日ファイル=> YYYMMDD.ndjson
- スプリットYYYMMDDでプッシュ(YYYMMDDHHMM.meta1.meta2.jsonという名前日付)
- CONCATENATEされるすべてのファイル。 ndjsonファイル(500行はそれぞれのファイル)YYYMMDD.ndjson_splittedijオーバーYYYMMDD.ndjson_splittedij
ループと
0123を実行しますこのアプローチは機能します。私はそれが改善できるかどうか疑問に思います。
1日あたり1つのテーブルが必要です。:)負荷ジョブのクォータは1日あたり1000であるようです。 –
ええ、しかし、1000 * 5TBは5ペタバイトを意味します。同じ日にそのデータ量が欲しいと真剣に考えていますか? – Pentium10
誤解。毎日システムLはフォルダB内に約30,000のファイルを生成する.BのスクリプトSは、フォルダDにBに属するファイルを生成する.Dには何百万ものファイルが含まれている可能性がある。目標はファイルをできるだけ早くBQに送信する前にファイルを集計することです。 –