2016-12-23 2 views
0

EMRからS3に1000GBの20GBファイルをアップロードする必要があるユースケースがあります。非常に大きなファイルをアップロード中にEMRが失敗する

fileSystem.moveFromLocalFileのAPIを使用してファイルをアップロードしている間、ジョブは次のエラーで失敗します。20ギガバイトのファイルの数は、1000年代のオーダーであり、あまり頻繁とき数際にこのエラーが頻繁に発生すること

16/12/23 07:25:04 WARN TaskSetManager: Lost task 107.0 in stage 16.0 (TID 94646, ip-172-31-3-153.ec2.internal): java.io.IOException: Error closing multipart upload 
    at com.amazon.ws.emr.hadoop.fs.s3n.MultipartUploadOutputStream.uploadMultiParts(MultipartUploadOutputStream.java:377) 
    at com.amazon.ws.emr.hadoop.fs.s3n.MultipartUploadOutputStream.close(MultipartUploadOutputStream.java:394) 
    at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.close(FSDataOutputStream.java:74) 
    at org.apache.hadoop.fs.FSDataOutputStream.close(FSDataOutputStream.java:108) 
    at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:61) 
    at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:119) 
    at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:366) 
    at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:356) 
    at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:338) 
    at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:2017) 
    at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:1985) 
    at org.apache.hadoop.fs.FileSystem.moveFromLocalFile(FileSystem.java:1972) 
    at com.amazon.ws.emr.hadoop.fs.EmrFileSystem.moveFromLocalFile(EmrFileSystem.java:419) 

は注意のファイルは100sのオーダーです。

デバッグの方法に関するガイダンスが必要です。

+0

鮮明な画像を得るには、なぜaws s3 cpを使用したり、これらのファイルをHDFSに入れてs3-dist-cpを使用したりできないのですか? – Chirag

答えて

0

EMRからS3にアップロードされるファイルのサイズには、5GBの制限があります。 アップロードする前にファイルを圧縮することも、複数の部分に分割することもできます。

関連する問題