apache-beam

4熱

3答えて

現在、Apache Beamを使ってPythonでgzipファイルを読むことはできますか？私たちは、ファイルがあるように見える圧縮Pythonのビームのソースコードに気づい UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte ：私のパイプラインのコード行でGCSから

1熱

1答えて

データフロープロセスが失敗しても回復しませんでした

最近、AZ全体が停止してしまった場合、Dataflowフェールオーバープロシージャをよく理解したいと思います。データフロージョブ（Streaming、PubSub to BigQuery）のワーカーノードを手動で削除したとき、それらは正常に再作成/再開されましたが、データフロープロセス自体は回復しませんでした。すべてのステータスがOKだったにもかかわらず、データ項目が流れていませんでした。フ

2熱

1答えて

リアルタイムパイプラインフィードバックループ

データセットに壊れた/悪意のあるデータが含まれている可能性があります。データにタイムスタンプが付きます。ヒューリスティックな機能でデータを評価しています。一定期間が経過すると、ID付きの新しいデータ項目はすべて破棄する必要があり、データの大部分（最大40％）を占めることがわかっています。最初のものは単なるデータ以上の評価を実行します：は、今私は2つのバッチのパイプラインを持っています。第2の

2熱

1答えて

PythonのApacheのビームでは、特定の順序で要素を書くことは可能ですか？

私はビームを使用して、重なり合ったウィンドウ上の時系列データを処理しています。私のパイプラインの終わりに、私は各要素をファイルに書いています。各要素はcsv行を表し、フィールドの1つは関連ウィンドウのタイムスタンプです。そのタイムスタンプの順に要素を書きたいと思います。 pythonビームライブラリを使ってこれを行う方法はありますか？

5熱

1答えて

Cloud DataflowでのBeam SDKの使用

現在、GoogleのCloud Dataflow SDK（1.6.0）を使用してGCPでデータフロージョブを実行していますが、Apache Beam SDK（0.1.0）に移行する予定です。私たちはまだデータフローサービスを使ってGCPで仕事をしています。誰もがこの移行を経てアドバイスを受けましたか？ここに互換性の問題はありますか？この動きはGCPによって奨励されていますか？

1熱

1答えて

データフロー表示コンポジットトランスフォームにデータがありません

データフローに新しいdisplay data機能を追加しようとしています。詳細はGoogle Cloud Dataflow UIに表示されます。ただし、カスタムPTransformの表示データは表示されません。私のデータフローパイプラインでは、私は次のように変換している：私はデータフロージョブを実行すると Pipeline p = // .. p.apply(new PTransform<PCo

0熱

1答えて

最近クラウドデータフローpython SDKが利用可能になり、私はそれを使用することに決めました。残念ながら、クラウドデータストアから読み取るサポートはまだ来ていないので、私はカスタムソースを書くことに後退しなければならないので、私は動的分割、進捗予測などの約束を活用することができます。私は文書を徹底的に勉強しましたが、私の全体のプロセスをスピードアップできるように、作品をまとめて入れることはでき

10熱

1答えて

Dataflow/Beamで設定された大規模な履歴データとストリーミングデータを結合する方法

Google Dataflow/Apache Beamを介してWebユーザーセッションからの処理ログを調査しています。先月のユーザーセッション私は以下のアプローチを見てきました：メモリに収まるようにウィンドウの大きな可能性が最も高い、と私は、ユーザーの履歴を更新する必要はありません、ただ参照してください。は30日、固定ウィンドウを使用しますそれに取得するために使用CoGroupByKeyは、

0熱

1答えて

GoogleのデータフローでパーソナライズされたWindowFnを作成する方法

WindowFnを別の方法で作成して、入力項目のタイムスタンプに基づいてではなく、別の項目に基づいて入力要素にWindowsを割り当てたいとします。 Google DataFlow SDKのあらかじめ定義されたWindowFnは、ウィンドウを割り当てる基準としてタイムスタンプを使用しています。具体的には、SlidingWindowsの種類を作成したいと思いますが、ウィンドウ割り当ての基準としてタ