2017-01-25 2 views
1

パイプラインをテストしたいと思います。 私のパイプラインはBigQueryからデータを抽出し、データをGCSとS3に保存します。 パイプラインテストに関する情報がありますが、 https://cloud.google.com/dataflow/pipelines/testing-your-pipeline、 BigQueryからデータを抽出するデータモデルについては含まれていません。BigQueryでデータフローパイプラインをテストする方法

私は以下の例を見つけましたが、コメントがありませんので、少し分かりにくいです。 https://github.com/GoogleCloudPlatform/DataflowJavaSDK/blob/master/examples/src/test/java/com/google/cloud/dataflow/examples/cookbook/BigQueryTornadoesTest.java

私のパイプラインをテストするための良い文書はありますか?

答えて

1

パイプライン全体を適切に統合テストするには、BigQueryに保存されている少量のサンプルデータを作成してください。また、S3とGCSにサンプルバケツ/フォルダを作成して、出力を保存してください。次に、PipelineOptionsを使用してテストBQテーブルを指定して、通常どおりパイプラインを実行します。ローカルで実行する場合はDirectPipelineRunnerを使用できます。おそらく、最初にパイプラインを実行し、次にS3とGCSのデータをダウンロードし、期待する内容を確認するスクリプトを作成するのが最も簡単でしょう。

オフラインデータでパイプラインの変換をテストする場合は、WordCountの例に従ってください。

関連する問題