0

Google Cloud Storage(GCS - > Tempテーブル - >メインテーブル)からBigQueryにテーブルを100個ロードする必要があります。 BigQueryにデータを読み込むためのPythonプロセスを作成し、AppEngineでスケジュールしました。 AppEngineのタイムアウトは最大10分です。私は非同期モードでジョブを提出し、後でジョブの状態を確認しています。私は100台のテーブルを持っているので、ジョブの状態をチェックする監視システムを作成する必要があります。Google Cloud StorageからBigQueryにデータを読み込む

ジョブの状態を確認するために、いくつかのテーブルと一連のビューを維持する必要があります。

操作プロセスは少し複雑です。もっと良い方法はありますか?

おかげ

+0

あなたは多分何かを向上させることができ、あなたが行う手順を要約してください可能性があります。 – Pentium10

+0

appengineでpythonプロセスをどのように作成し、それをスケジュールして、私がbigqueryで同じことをしているのかを段階的に教えてください。私はcsvファイルをGoogleバケットからbigqueryテーブルに読み込みます。 – LondonUK

答えて

0

我々はこれをしたとき、我々は単に私たちが後で確認されなければならなかった何かをプッシュBeanstalkd、などのメッセージ・キューを使用して、我々はチャネルに登録小さな労働者を書いて、タスクに対処。

一方、BigQueryでは、Google Cloud Storageから直接データをクエリできます。

使用例 - フェデレーションデータソース(BigQuery外部の場所)からデータをクエリし、クリーンな結果をBigQueryストレージに書き込むことで、データを1回でロードしてクリーニングします。
- 頻繁に変更されるデータの量が少なく、他のテーブルと結合します。フェデレーテッド・データ・ソースとして、頻繁に変更されるデータを更新するたびに再ロードする必要はありません。

https://cloud.google.com/bigquery/federated-data-sources

関連する問題