2016-11-25 6 views
5

こんにちはを使用して複数の出力ディレクトリにアブロ書くために、MultipleTextOutputFormatいくつかの類似したがある場合は、スパーク

Write to multiple outputs by key Spark - one Spark job

を使用して1つのスパークジョブで複数の出力ディレクトリにテキストデータを書き込みに関するトピックがありますどのように私が求めるだろう私が欲しいもの、複数のディレクトリ

にアブロデータを書き込むための方法は、別のディレクトリにアブロファイルにデータを書き込むことである(タイムスタンプフィールドに基づいて、タイムスタンプの同じ日には、同じディレクトリに行く)

答えて

2

AvroMultipleOutputsクラスは、Avro出力データを複数の出力に簡単に書き込むことができます。

  • ケース1:ジョブのデフォルト出力以外の追加出力への書き込み。各追加出力または名前付き出力は、独自のSchemaおよびOutputFormatを使用して構成できます。

  • ケース2:ユーザー

AvroMultipleOutputsが提供する別のファイルにデータを書き込むためには、彼らが無効になっているデフォルトでは、カウンタをサポートしています。カウンターグループはAvroMultipleOutputsクラス名です。カウンターの名前は出力名と同じです。これらは、各出力名に書き込まれたレコードの数を数えます。

また

+0

はAvroMultipleOutputsルックス「MRのために使用することができますが、さ直接火花に使用される... – Tom

+0

'MultipleOutputsFormatTest'は見たことがありますか? –

+0

ありがとう@RamPrasad G.私はお試しください、ありがとう! – Tom

関連する問題