0

私たちは、Hortonworksでオンサイトのクラスタ設定でKafkaとSpark Streamingを使用してリアルタイムストリーミングアプリケーションを実行しています。On-Premise HadoopクラスタからAWS S3へのストリーミングデータを保存する方法

私たちは、AWSのS3ファイルシステムに保存するために、Spark StreamingまたはKafkaからイベントトリガーされたデータをプッシュする必要があります。

これに関連する指針はありません。

答えて

0

あなたがS3Aを使用して保存することができます://スキームとHadoopのファイルシステムAPI、例えばそれは、クラスパスの設定を少しトリッキーなことができますが、すべてが設定されるべきビット

val fs = FileSystem.get("s3a://bucket1/dir", sparkContext.hadoopConfiguration) val out = fs.create("dest/mydata", true) out.write(" whatever, I forget the API for OutputStreams, it takes byte arrays really") out.close()

のようなものをこれをHDPでアップ。より正確には、そうでない場合は、私はサポートコールのフィールドに行く:)

関連する問題