2016-12-22 21 views
1

bigqueryテーブルに約100万行をロードする必要があります。私のアプローチは、データをクラウドストレージに書き込んでから、複数のファイルを一度にロードするためにload apiを使用することです。 これを行う最も効率的な方法は何ですか?私はgcsの部分に書き込みを並列化することができます。私がload apiを呼び出すと、私はすべてのurisを渡すので、一度だけ呼び出す必要があります。このロードがバックエンドでどのように行われているのかよく分かりません。複数のファイル名を渡すと、このロードは複数のプロセスで実行されますか?最高のパフォーマンスを得るために各ファイルのサイズを決めるにはどうすればよいですか? ありがとうGCSからBigQueryにファイルを読み込む - 最適なアプローチは何ですか?

答えて

3

すべての行を1つのファイルに保存します。ファイルが圧縮されていない場合、BigQueryは多くのワーカーと並行してファイルを読み取ることができます。

https://cloud.google.com/bigquery/quota-policy

  • からBigQueryは最大4GBの圧縮ファイル(.gzが)を読むことができます。

  • BigQueryは、最大5,000GBの非圧縮ファイル(.csv、.json、...)を読み込むことができます。 BigQueryは、それを並行して読む方法を見つけ出します。心配する必要はありません。

+0

お返事ありがとうございます。手動でファイルを複数に分割すると速度が上がらないでしょうか? –

関連する問題