2016-12-22 4 views
0

Python SDKでは、extra_packageオプションを使用してカスタムParDoを使用すると、ジョブが永久にハングしているように見えます。ここで ログがなくてもジョブが永久にハングする

は、例えばジョブIDである:私はそれがextra_packageオプションに関連しているようだということに気づい

... 2016-12-22_09_26_08-4077318648651073003

明示的なログやエラーがスローされませんので、私は実際にトリガすることなく、このオプションを使用する場合ParDo(コードコメント)、どちらも動作しません。 単純な出力スキーマと変換ステップのない最初のBqクエリが機能します。

誰かに起こりましたか?

P.S:私はDataFlow 0.4.3バージョンを使用しています。私はvenv内部でテストし、thylongとJKFFによって決定されるようにDirectPipelineRunner

+0

遅れて申し訳ありません。あなたの仕事のクラウドロギングのワーカーログに基づいて、extra_packageがDataflowのパッケージやバイナリと互換性がないようです。問題は引き続き発生していますか、またはジョブを最後まで正常に実行できましたか?パッケージは何でしたか? – jkff

+0

心配しないで、私はそれを確認します。私のルートディレクトリのrequirements.txtとextra_packageのものは異なっていました。 DataFlowコンテナのexec.goが何度も何度も失敗する原因となります。私は同じ凍結依存関係を持つvenvを作り直してしまった。 – thylong

答えて

0

で動作するようです:

extra_packageは、データフローのパッケージとのバイナリ互換性がありませんでした。ルートディレクトリのrequirements.txtとextra_package内のrequirements.txtが異なるため、DataFlowコンテナ内のexec.goが何度も失敗しました。修正するために、私たちは同じフリーズされた依存関係を持つvenvを再作成しました。

関連する問題