2016-12-06 10 views
0

私のApache Sparkアプリケーションは、さまざまな入力ファイルを取り、結果とログを別のファイルに保存します。入力ファイルは、Amazonクラウド上で動作するはずのアプリケーションとともに提供されます(EMRはEC2よりも好ましいと思われます)。アマゾンemrからファイルを取り出す方法は?

私は入力ファイルとそれにアクセスするアプリケーションを含むuber-jarを作成するはずです。しかし、実行が終了すると、クラウドから生成されたファイルをどのように取得するのですか?

追加情報として、コードはコードからの相対パスを使用して作成され、書き込まれます。

答えて

0

クラスタ外でSparkアプリケーションによって生成された出力にアクセスすることを意味すると仮定すると、通常はS3に書き込むことです。もちろん、EMRクラスターの外部からS3から直接データを読み取ることもできます。

+0

これはS3パスでアプリケーションを初期化する必要があることを意味しますか? たとえば、PrintWriter writer = new PrintWriter( "s3:\\ log \\ logfile.txt"、 "UTF-8")です。 – user3209815

関連する問題