2017-01-21 7 views
1

Google DataFlow Java SDKを使用しようとしていますが、自分の入力ファイルは.parquetファイルです。Google DataFlow&閲覧寄木細工ファイル

境界処理されたデータソースとして、ParquetをDataFlowパイプラインに読み込むための既定の機能は見つかりませんでした。 私は、コーダーを作成したり、またはParquet Readerに基づくAvroIOのようなビットをシンクできると理解しています。

どのように実装する最良の方法をアドバイスできますか? How-to \ examplesを参照してください。

ありがとうございました!

-A-

答えて

3

あなたはhttps://issues.apache.org/jira/browse/BEAM-214で(ボックスfunctinonalityのうち、あなたがそれを呼ばれると)ParquetIOに向けた進捗状況を見つけることができます。一方

、ビームとデータフローのSDKの両方でのHadoop FileInputFormatを使用し寄せ木ファイルを読み込むことが可能でなければなりません:

ビーム:https://github.com/apache/beam/tree/master/sdks/java/io/hdfs

データフロー:https://github.com/GoogleCloudPlatform/DataflowJavaSDK/tree/master/contrib/hadoop

関連する問題