google-cloud-dataflow

    7

    1答えて

    私は、Kafka 0.8から読み込んだカスタムDataFlow無制限データソースを作成しています。私はDirectPipelineRunnerを使ってローカルで実行したいと思います。私はいつでも私のカスタムソースのための評価者を登録していないとして、いくつかの理にかなって Exception in thread "main" java.lang.IllegalStateException: no

    6

    2答えて

    私はGoogleクラウドデータフローを使用したBigQueryテーブルにトピックからPubSubのメッセージデータを挿入したいと思います。 すべてがうまくいきますが、BigQueryテーブルでは "߈ "のような読めない文字列を見ることができます。 これは私のパイプラインである: p.apply(PubsubIO.Read.named("ReadFromPubsub").topic("projec

    5

    2答えて

    ここでは、プログラミングモデルの周りに頭を抱えようとしています。シナリオ私はPub/Sub + Dataflowを使用してWebフォーラムのアナリティクスを計測しています。私は仕事がしたい ID | TS | num_comments 1 | 1 | 0 1 | 2 | 1 2 | 2 | 0 1 | 4 | 2 : ID | TS | EventType 1 | 1 | Creat

    8

    1答えて

    私の会社はGoogle Dataflowを使用できるかどうか評価しています。 Google Cloud Platformでデータフローを実行しました。コンソールは、右側の「予約済みCPU時間」フィールドに5時間25分を表示します。 ワーカー構成:N1-標準-4 データフローのコストを計算する方法8人の労働者... を起動しますか? this page によると、1時間当たりGCEUあたりの価格は0

    5

    2答えて

    Pub/Subからデータを読み取り、Datastoreに書き込むパイプラインを作成できますか?私のコードでは、入力としてPubsubIOを指定し、境界のあるPCollectionを取得するためにウィンドウを適用していますが、DatastoreIO.writeToをoptions.setStreamingとともに使用することはできないようです入力としてPubsubIO。これを回避する方法はありますか

    7

    1答えて

    1秒間に何千ものイベントが発生する単一のストリーミングイベントソースがあります。これらのイベントには、何万人の顧客がイベントに属しているかを識別するIDが付いています。このイベントソースを使用して(ストリーミングモードで)データウェアハウスを作成したいと考えていますが、イベントソースは永続的ではありませんので、GCSでアーカイブしてデータを再生することもできますそれを必要とする変更を行う場合は、倉

    5

    1答えて

    Google Cloud Dataflowの使い方は非常に新しいです。私は2つのPCコレクションのデカルト積を得たいと思います。たとえば、2つのPCコレクションが(1, 2)と("hello", "world")の場合、デカルト積は((1, "hello"), (1, "world"), (2, "hello"), (2, "world"))です。 どのようにすればよいのでしょうか?また、デカルト