0

PubSubから読み込んでBigQueryに書き込むデータフローパイプラインに問題があります。PubSubIOを使用したデータフローの読み込みが遅い

さらに複雑なアップデートを実行するには排水する必要がありました。パイプラインを再開すると、通常の速度でPubSubの読み込みが開始されましたが、数分後にPubSubからメッセージが読み込まれなくなりました。データの透かしはほぼ一週間遅れて進行していません。 Stackdriverによると、購読には300kを超えるメッセージがあります。

更新前に正常に実行されていましたが、私のパイプラインを以前のバージョン(更新前に実行していたもの)にダウングレードしても、まだ動作しません。

私はいくつかの設定を試してみました:

1)私たちは、データフロー自動スケーリングを使用して、私はより強力な労働者(N1-標準-64)とのパイプラインを開始し、10人の労働者にそれを制限するが、それはしませんみましたパフォーマンスを向上させません(初期作業者のみを保持します)。

2)diskSizeGb(2048)とdiskType(pd-ssd)でさらにディスクを提供しようとしましたが、改善はありませんでした。

3)チェックされたPubSubクォータとプル/プッシュレートは、絶対に正常です。

パイプラインはエラーや警告を表示せず、処理が進まないだけです。

インスタンスリソースをチェックして、CPU、RAM、ディスクの読み書き速度が他のパイプラインと比較して大丈夫です。少しだけ高いのは、ネットワーク速度です。約400kバイト/秒(2000パケット/秒)の送信と300kバイト/秒の受信(1800パケット/秒)です。

私は何をお勧めしますか?

答えて

1

Java用のDataflow SDK 2.xおよびPython用のDataflow SDKは、Apache Beamに基づいています。アップデートするときは、documentationを参考にしてください。クォータは、遅いパイプラインと出力の欠如の問題になる可能性がありますが、それらは上質であると述べました。

ジョブを見る必要があるようです。私はPIT hereで問題を開くことをお勧めします。あなたのプロジェクトID、仕事のIDと必要なすべての詳細を提供することを確認してください。

+0

こんにちはShivam、私たちはいくつかの変更を試みました。パイプラインのDoFnが永遠にスリープ状態になっていたというコードのバグが見つかりました。しかし、PubSubIOの動作には何らかの問題があると考えられますが、パイプラインを再度機能させることが優先事項だったため、PubSubIOの動作には問題がありました。それ以前にも同様の問題が発生していましたが、これはバグとは関係なく、別のサブスクリプションからの読み取り(およびメッセージの再送信)によって解決されました。現時点では、これについて詳細を説明することはできませんが、パイプラインを監視して再度発生するかどうかを確認しています。ご協力いただきありがとうございます。 – leonardoam

関連する問題