2017-11-05 1 views
0

私はハイブクエリを実行する私とaws emrセットアップを持っています。 現在、ハードウェアの設定は次のとおりです。aws emrでハイブクエリを実行するとデバイスに残っているスペースを解決する方法

つのマスタ - m3.xlarge 8のvCPU、15ジブメモリ、80 SSD GBストレージ EBSストレージ:なし

フィフティーンコアノード - m3.xlarge 8のvCPU、15ジブメモリ、80 SSD GBストレージ EBSストレージ:なし

私のクエリは約500万レコードを処理し、内部ハイブテーブルの一部になります。 これらの内部テーブルに対してマージクエリを実行します。

ここで私がコアノードの数を増やすと、問題はなくなります。 しかし、なぜこのエラーが実際に起こったのか、それをデバッグして解決する方法を理解する助けが必要です。参照する参考資料があります。

ここにスタックトレースがあります。

For Reason - org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask. Vertex failed, vertexName=Map 1, vertexId=vertex_1507712059631_0734_1_01, diagnostics=[Task failed, taskId=task_1507712059631_0734_1_01_000066, diagnostics=[TaskAttempt 0 failed, info=[Container container_1507712059631_0734_01_000056 finished with diagnostics set to [Container failed, exitCode=-100. Container released on a *lost* node]], TaskAttempt 1 failed, info=[Container container_1507712059631_0734_01_000038 finished with diagnostics set to [Container failed, exitCode=-100. Container released on a *lost* node]], TaskAttempt 2 failed, info=[Error: Encountered an FSError while executing task: attempt_1507712059631_0734_1_01_000066_2:org.apache.hadoop.fs.FSError: java.io.IOException: No space left on device 
at org.apache.hadoop.fs.RawLocalFileSystem$LocalFSFileOutputStream.write(RawLocalFileSystem.java:253) 
at java.io.BufferedOutputStream.write(BufferedOutputStream.java:122) 
at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.write(FSDataOutputStream.java:60) 
at java.io.DataOutputStream.write(DataOutputStream.java:107) 
at org.apache.tez.runtime.library.common.sort.impl.IFileOutputStream.write(IFileOutputStream.java:120) 
at 

答えて

0

MapReduceエンジンを搭載したハイブは、中間結果をディスクに保存します。中間結果のサイズが使用可能なディスク容量(結合操作中に簡単に発生する可能性がある)を超えた場合は、結果としてエラーになります。

代わりにSparkSqlを試すことができます。これは、inで実行する前にクエリを最適化します。ハイブコマンドは、ただ再利用できます。あなたがツェッペリンやjupyterノートPCを使用することができ、またはあなたがJavaやScalaではいくつかの小さな火花ジョブを作成するフロントエンドとして

https://aws.amazon.com/blogs/big-data/using-spark-sql-for-etl/

関連する問題