2017-12-06 4 views
1

GCPの新機能で、次の点に関する助けが必要でした。 .jsonファイルをクラウドストレージにアップロードしていて、解析のためにデータをクラウドデータストアに移動する必要があります。 /クエリ。クラウドストレージ上のJSONファイルからデータストアへのデータフローパイプラインの作成方法

大きなデータセットがネイティブにインポートするには時間がかかりすぎる可能性があるので、データフローを使用して変換して読み込むのは興味深いと思います。 アイデアや助けをいただければ幸いです。

答えて

0

これはかなり簡単な問題です。

  1. レビューここでデータフローパイプラインの作成の基本:GCSから https://beam.apache.org/documentation/pipelines/design-your-pipeline/

  2. 読む: https://beam.apache.org/documentation/sdks/javadoc/0.2.0-incubating/org/apache/beam/sdk/io/TextIO.html

  3. がエンティティにJSONを変換する:あなたがする必要があります https://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/coders/TableRowJsonCoder (または類似)

  4. データストアへの書き込み https://github.com/apache/beam/tree/master/sdks/java/io/google-cloud-platform/src/main/java/org/apache/beam/sdk/io/gcp/datastore

希望します。

関連する問題