2016-04-25 15 views
3

ZeppelinとScalaを使用して大きなJSONファイル(1.5 GB)を読み込もうとしています。org.apache.thrift.transport.TeransportException Zeppelin scalaで大きなJSONファイルを読み取っているときにエラーが発生しました

Zeppelinは、10 GBのRAMを搭載したVM上のUbuntu OSにインストールされたローカルモードでSPARKに取り組んでいます。私は次のエラー

org.apache.thrift.transport.TTransportException 
    at org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport.java:132) 
    at org.apache.thrift.transport.TTransport.readAll(TTransport.java:86) 
    at org.apache.thrift.protocol.TBinaryProtocol.readAll(TBinaryProtocol.java:429) 
    at org.apache.thrift.protocol.TBinaryProtocol.readI32(TBinaryProtocol.java:318) 
    at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol.java:219) 
    at org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:69) 
    at org.apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.recv_interpret(RemoteInterpreterService.java:241) 
    at org.apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.interpret(RemoteInterpreterService.java:225) 
    at org.apache.zeppelin.interpreter.remote.RemoteInterpreter.interpret(RemoteInterpreter.java:229) 
    at org.apache.zeppelin.interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) 
    at org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:229) 
    at org.apache.zeppelin.scheduler.Job.run(Job.java:171) 
    at org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:328) 
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) 
    at java.util.concurrent.FutureTask.run(FutureTask.java:262) 
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) 
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:292) 
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 
    at java.lang.Thread.run(Thread.java:745) 

答えて

5

を取得しています

val inputFileWeather="/home/shashi/incubator-zeppelin-master/data/ai/weather.json" 
val temp=sqlContext.read.json(inputFileWeather) 

以下のように私はspark.executor.memory

マイコードに8ギガバイトをallotedているあなたが得たエラーが問題でが原因ですSparkインタプリタを実行しているため、Zeppelinはインタプリタプロセスに接続できませんでした。

/PATH/TO/ZEPPELIN/logs/*.outにあるログを確認して、何が起こっているのかを正確に知る必要があります。おそらくインタープリタのログにOOMが表示されます。

私は、10 GBのVM上のエグゼキュータメモリ用の8 GBは、不合理であると思います(いくつのエグゼキュータを起動していますか?)。あなたも同様にドライバーメモを考慮する必要があります

関連する問題