2016-08-30 2 views
2

私はビームを使用して、重なり合ったウィンドウ上の時系列データを処理しています。私のパイプラインの終わりに、私は各要素をファイルに書いています。各要素はcsv行を表し、フィールドの1つは関連ウィンドウのタイムスタンプです。そのタイムスタンプの順に要素を書きたいと思います。 pythonビームライブラリを使ってこれを行う方法はありますか?PythonのApacheのビームでは、特定の順序で要素を書くことは可能ですか?

+0

ウィンドウごとにファイルを作成しているようです。それは正しいのですか、またはウィンドウごとに複数のファイルを書くことができますか? –

+0

いいえ、私はウィンドウごとのファイルを書いていません。これは1つのCSVファイルで、各ウィンドウの計算はそのファイルの行になります。 – agsolid

+0

パイプラインに出力ファイルが1つしかないことを正しく理解していますか? –

答えて

1

これは基本配布の一部ではありませんが、これでは、次の点に注意して、ファイルに書き出す前に、これらの要素を処理し、グローバルウィンドウの一部としてそれらを分類することにより実現できるようなものである:

  • ウィンドウの内容全体がメモリに収まる必要があるか、またはファイルをより小さなグローバルウィンドウにチャンクアップする必要があります。
  • 2番目のオプションを実行している場合は、小さなウィンドウをファイルに書き込む戦略が必要です。
関連する問題