ビームパイプライン実行のデータフロー監視インターフェイスでは、各変換ボックスに時間間隔が指定されています(https://cloud.google.com/dataflow/pipelines/dataflow-monitoring-intf参照)。Apache Beamパイプライン(データフロー) - 無制限データの実行時間の解釈
制限付きデータの場合、これは変換が完了するのに要する推定時間であると私は理解していました。しかし、私のストリーミングの場合のような無制限のデータの場合、この数字をどのように解釈すればよいですか?
私の変換の中には他のものよりもかなり長い期間があり、これは変換に時間がかかることを意味します。しかし、この不均一な分布が私の実行にどのような影響を与えるかについての他の示唆は何ですか?
また、オートスケーリングに関連していますか?例えば、実行にかかる時間が特定のしきい値を超えた場合、より多くの労働者がスピンアップしますか?または、オートスケーリングは入力のデータ量に依存しますか?