これは適切な質問ではありませんが、現在はデータソースを複数の場所で複数のチャンクに分割するデータフロージョブを実行しようとしています。しかし、1つのジョブで同時に多数のテーブルに書き込もうとすると、データフロージョブがHTTPトランスポート例外エラーで失敗する可能性が高くなります。ソースとシンクの条件私は1つの仕事にラップすることができますか?Googleのデータフローを使用した複数のエクスポート
このシナリオを回避するには、この1つのジョブを複数のデータフロージョブに分割して、同じデータソースを複数回処理する必要があることを意味する(データフロージョブ)。今は大丈夫ですが、後で自分のデータソースが大きくなる場合は、避けることが理想的です。
したがって、1つの安定したジョブにグループ化することができるデータソースとシンクの数がどれほど多いのでしょうか?そして、私のユースケースのための他の優れたソリューションがありますか? the Dataflow service description of structuring user codeから
ありがとうございます。私は4つのソースを想定していますが、1つのデータフロージョブで約60〜200のアウトプットシンクがあります。そのため、多すぎるかどうかわかりません。場所は私がgcsまたはbqのどちらかを使用していると期待してサポートされています。データソースはすべて静的であり(バッチデータフロージョブなので)、将来はストリーミングソースを接続することは可能ですが、オプションです –