2017-02-21 5 views
1

私のチームと私はGoogle Cloud Dataflowを使用して、リモートでジョブを実行しています。 Pythonで設定されたjulianのサンプルから、デプロイメントが正常に動作していることを確認しました。Google Cloud Dataflowでゼロベースのインデックスと1つのインデックスを修正しました。

ローカルマシンよりも時間がかかりましたが、Google Cloud Dataflowで完了しました。

私たちが持っている問題は、私たちに意味をなさない同じファイル名でゼロベースのインデックス作成と1つのベースのインデックス作成を使用したことです。

enter image description here

我々は00008-の-00008または00009-の-00009で終わると思います00008-の-00009で終わるよりも多くの意味をなします。とにかくこれを修正して、左右の数字が一致するようにすることはできますか?

+0

コメントを書き留めておけば、VMを予約して起動する必要があるため、小規模なジョブはローカル実行時よりもGCPで時間がかかることがあります。 – Pablo

+1

@Pabloありがとう!私たちはこれを聞いてうれしく、小さな仕事が並列化のようなものを利用していないことを望んでいました。 –

答えて

0

0000X-of-0000Y形式を使用すると、Beamはindex-of-countを実行しようとします。右側の数字はシャードの総数ですが、左側の数字はゼロベースのインデックスです。

この動作の変更は、Apache Beamのシンクでは現在サポートされていません(簡単に)。自分で追加するには、Apache Beam(具体的にはaround here)のコードを変更する必要があります。

これが役に立ちます。

+0

私たちのためにパブロを見つけてくれてありがとう!私たちはApache Beamコードの編集を伴わない簡単なソリューションを望んでいたので、最新情報を簡単に入手することもできました。 –

関連する問題