スパークストリーミングで処理されたファイルを書き込む

私はスパークストリーミング（Javaで）を使用して、カフカからのメッセージを消費しています。私はrddの上でいくつかの処理を行った。さて、私はこの処理された情報（文字列）をs3のファイルに書きます。これをどのように達成するのですか？あなた自身が多く、多数の小さなファイルを作成見つけるかもしれませんが、（「//bucket/path/file.avro S3A」）スパークストリーミングで処理されたファイルを書き込む

directKafkaStream.map(message -> recordInjection.invert(message._2).get()).foreachRDD(rdd -> { 
       rdd.foreach(record -> { 
    // processing each record, storing the processed info in a string. 
    // write each processed record (string) to s3 
    }); 
});

出典

2016-11-11 RED

唯一の方法は、マップ関数を使用してrddを作成し、次にs3に書き込むことです。 – RED

あなただけRDD.saveAsTextFileを使用することができます。

出典

2016-11-11 15:15:15

スティーブ、私はRDDからいくつかのフィールドを抽出しています。それはS3に保存したいものです。私はRDDしか保存できないので、これらのフィールドを直接保存する方法はありません。 – RED

スパークストリーミングで処理されたファイルを書き込む

答えて

関連する問題