apache-beam

    4

    3答えて

    現在、Apache Beamを使ってPythonでgzipファイルを読むことはできますか?私たちは、ファイルがあるように見える圧縮Pythonのビームのソースコードに気づい UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte : 私のパイプラインのコード行でGCSから

    1

    1答えて

    最近、AZ全体が停止してしまった場合、Dataflowフェールオーバープロシージャをよく理解したいと思います。 データフロージョブ(Streaming、PubSub to BigQuery)のワーカーノードを手動で削除したとき、それらは正常に再作成/再開されましたが、データフロープロセス自体は回復しませんでした。 すべてのステータスがOKだったにもかかわらず、データ項目が流れていませんでした。 フ

    2

    1答えて

    データセットに壊れた/悪意のあるデータが含まれている可能性があります。データにタイムスタンプが付きます。ヒューリスティックな機能でデータを評価しています。一定期間が経過すると、ID付きの新しいデータ項目はすべて破棄する必要があり、データの大部分(最大40%)を占めることがわかっています。 最初のものは単なるデータ以上の評価を実行します: は、今私は2つのバッチのパイプラインを持っています。 第2の

    2

    1答えて

    私はビームを使用して、重なり合ったウィンドウ上の時系列データを処理しています。私のパイプラインの終わりに、私は各要素をファイルに書いています。各要素はcsv行を表し、フィールドの1つは関連ウィンドウのタイムスタンプです。そのタイムスタンプの順に要素を書きたいと思います。 pythonビームライブラリを使ってこれを行う方法はありますか?

    5

    1答えて

    現在、GoogleのCloud Dataflow SDK(1.6.0)を使用してGCPでデータフロージョブを実行していますが、Apache Beam SDK(0.1.0)に移行する予定です。私たちはまだデータフローサービスを使ってGCPで仕事をしています。誰もがこの移行を経てアドバイスを受けましたか?ここに互換性の問題はありますか?この動きはGCPによって奨励されていますか?

    1

    1答えて

    データフローに新しいdisplay data機能を追加しようとしています。詳細はGoogle Cloud Dataflow UIに表示されます。ただし、カスタムPTransformの表示データは表示されません。私のデータフローパイプラインでは、私は次のように変換している:私はデータフロージョブを実行すると Pipeline p = // .. p.apply(new PTransform<PCo

    0

    1答えて

    最近クラウドデータフローpython SDKが利用可能になり、私はそれを使用することに決めました。残念ながら、クラウドデータストアから読み取るサポートはまだ来ていないので、私はカスタムソースを書くことに後退しなければならないので、私は動的分割、進捗予測などの約束を活用することができます。私は文書を徹底的に勉強しましたが、私の全体のプロセスをスピードアップできるように、作品をまとめて入れることはでき

    10

    1答えて

    Google Dataflow/Apache Beamを介してWebユーザーセッションからの処理ログを調査しています。先月のユーザーセッション 私は以下のアプローチを見てきました:メモリに収まるようにウィンドウの大きな可能性が最も高い、と私は、ユーザーの履歴を更新する必要はありません、ただ参照してください。 は30日、固定ウィンドウを使用します それに取得するために使用CoGroupByKeyは、

    0

    1答えて

    WindowFnを別の方法で作成して、入力項目のタイムスタンプに基づいてではなく、別の項目に基づいて入力要素にWindowsを割り当てたいとします。 Google DataFlow SDKのあらかじめ定義されたWindowFnは、ウィンドウを割り当てる基準としてタイムスタンプを使用しています。 具体的には、SlidingWindowsの種類を作成したいと思いますが、ウィンドウ割り当ての基準としてタ