1

Google Cloud SQLを使用して、アプリケーションの通常の機能(OLTPデータの種類)のすべてのデータを保存するソリューションを設計しています。データは時間の経過と共にかなり大きなサイズに成長すると予想されます。データ自体は本質的にリレーショナルであるため、Cloud Datastoreの代わりにCloud SQLを選択しました。Google Cloud SQLをGoogle Big Queryと統合する方法

このデータは、分析のためにBig Queryに入力する必要があります。実際のところ、いくつかの遅れが予想されることがありますが、これはリアルタイム解析に近い必要があります。しかし、この遅れを最小限に抑えるソリューションを設計しようとしています。

  1. 私は、データを格納するためのクラウドSQLを使用する必要があり、その後、BigQueryのにそれを移動したり、自分自身を基本設計を変更し、最初にもデータを保存するためにBigQueryを使用する -

    私の質問は3つの部分を持っていますか? BigQueryは通常の低レイテンシのOLTPワークロードに適していますか?(私はそうは思わない - 私の前提は正しいですか?)

  2. Cloud SQLデータをBigQueryにロードする際に推奨される、リアルタイムに近い統合作業ですか?

  3. Cloud Dataflowは良い選択ですか?クラウドSQLをクラウドDataFlowに接続し、さらにBigQueryに接続すると、それは機能しますか?あるいはこれを達成するための他の方法がありますか(それは質問2で尋ねられます)?

答えて

2

はWePayがこれを行う方法を見てみましょう:

MySQLをGCSオペレータにMySQLの テーブルに対してSELECTクエリを実行します。 SELECTは、最後の のウォーターマークより大きい(または等しい)すべてのデータをプルします。最高透かしは テーブルのプライマリキー(テーブルが追加専用の場合)または変更タイムスタンプ (テーブルが更新を受け取る場合)のいずれかです。繰り返しになりますが、SELECTステートメント も少し時間がかかります(最後にクエリを実行した場合)。

エアフローでは、15分ごとにBigQueryをMySQLデータベースと同期させることができます。

+1

ありがとうフェリペ!本当に私にとって有益です。 –

関連する問題