2016-05-08 15 views
0

Apache Hadoopはaws s3からHDFSにファイルをコピーするためにdiscpを提供しています。しかし、効率的ではないようで、ロギングは柔軟性がありません。Hadoop MapReduceを使用してaws s3からHDFSにデータをインポートする方法

私のプロジェクトでは、HDFSへのファイル転送が成功するか失敗するたびに、カスタマイズされた形式でログを書き込む必要があります。大量のデータがロードされているため、Hadoop MapReduceを使用してHDFSクラスタにawsデータをロードするのが最も効率的です。たとえば、discpのようなHadoop MapReduceジョブを作成します。

私の計画では、各ノードの各Mapperにaws Java SDKという1つのs3ディレクトリをロードさせ、HDFSにロードするs3ディレクトリがたくさんあるためです。誰もがこの目標を達成する方法についていくつかの示唆を与えることができますか?前もって感謝します!

+0

AWS EMRを使用していますか?もしそうなら、あなたはS3バケットから直接読もうとしましたか? – filipebarretto

答えて

0

s3aを試したことがありますか?s3aは、s3nの後継者ですか?いくつかの制限(ファイルサイズ)がなくなり、パフォーマンスが向上しますか?また、distcpの問題は、S3(s3nまたはs3a?)でどのファイルシステムを使用していますか?最近、distcpにいくつかの作業が行われました。最新バージョンを確認する価値があります。

関連する問題