Apache Hadoopはaws s3からHDFSにファイルをコピーするためにdiscp
を提供しています。しかし、効率的ではないようで、ロギングは柔軟性がありません。Hadoop MapReduceを使用してaws s3からHDFSにデータをインポートする方法
私のプロジェクトでは、HDFSへのファイル転送が成功するか失敗するたびに、カスタマイズされた形式でログを書き込む必要があります。大量のデータがロードされているため、Hadoop MapReduceを使用してHDFSクラスタにawsデータをロードするのが最も効率的です。たとえば、discp
のようなHadoop MapReduceジョブを作成します。
私の計画では、各ノードの各Mapperにaws Java SDK
という1つのs3ディレクトリをロードさせ、HDFSにロードするs3ディレクトリがたくさんあるためです。誰もがこの目標を達成する方法についていくつかの示唆を与えることができますか?前もって感謝します!
AWS EMRを使用していますか?もしそうなら、あなたはS3バケットから直接読もうとしましたか? – filipebarretto