2017-10-25 5 views
0

ビームパイプライン実行のデータフロー監視インターフェイスでは、各変換ボックスに時間間隔が指定されています(https://cloud.google.com/dataflow/pipelines/dataflow-monitoring-intf参照)。Apache Beamパイプライン(データフロー) - 無制限データの実行時間の解釈

制限付きデータの場合、これは変換が完了するのに要する推定時間であると私は理解していました。しかし、私のストリーミングの場合のような無制限のデータの場合、この数字をどのように解釈すればよいですか?

私の変換の中には他のものよりもかなり長い期間があり、これは変換に時間がかかることを意味します。しかし、この不均一な分布が私の実行にどのような影響を与えるかについての他の示唆は何ですか?

また、オートスケーリングに関連していますか?例えば、実行にかかる時間が特定のしきい値を超えた場合、より多くの労働者がスピンアップしますか?または、オートスケーリングは入力のデータ量に依存しますか?

答えて

2

バッチとストリーミングの両方で、これは、各作業スレッドでこれらのステップがアクティブになっていた時間の尺度です。各ワーカーマシンのスレッド数は、バッチとストリーミングによって異なります。従業員が増えるにつれ、ワーカースレッドが増えることに注意してください。

実際の影響はありません。これらの測定値は、作業スレッドがほとんどの時間を費やしたことを理解する方法として提供されています。合計のパイプラインが合理的に動作していると思われる場合は、何もする必要はありません。パイプラインが予想よりも遅いと思っている場合、または手順の1つが予想よりも長くかかるように見える場合は、パフォーマンスを理解するための出発点として機能します。

ある意味では、これらは、さまざまな機能で費やされた時間のプロファイルが、正常なプログラムのパフォーマンスを向上させるのにどのように役立つかに似ています。ある機能に別の機能に長時間を要することはありませんが、有益な情報である可能性があります。

関連する問題