Yarn、HadoopでSpark scalaジョブを送信するには

私はSparkを初めて使用しています。擬似分散Hadoopシステムでスカラージョブを実行しようとしています。Yarn、HadoopでSpark scalaジョブを送信するには

ハドープ2.6+糸+スパーク1.6.1 +スカラ2.10.6 + JVM 8、すべてがゼロからインストールされています。

私のScalaアプリケーションは単純なWordCountの例ですが、私はエラーの原因を知りません。

/usr/local/sparkapps/WordCount/src/main/scala/com/mydomain/spark/wordcount/WordCount.scala 

package com.mydomain.spark.wordcount 
import org.apache.spark.{SparkConf, SparkContext} 
import org.apache.spark.SparkContext._ 

object ScalaWordCount { 
    def main(args: Array[String]) { 
     val logFile = "/home/hduser/inputfile.txt" 
     val sparkConf = new SparkConf().setAppName("Spark Word Count") 
     val sc = new SparkContext(sparkConf) 
     val file = sc.textFile(logFile) 
     val counts = file.flatMap(_.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) 
     counts.saveAsTextFile("/home/hduser/output") 
    } 
}

SBTファイル：

/usr/local/sparkapps/WordCount/WordCount.sbt 


name := "ScalaWordCount" 

version := "1.0" 

scalaVersion := "2.10.6" 

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.6.1"

コンパイル：

$ cd /usr/local/sparkapps/WordCount/ 
$ sbt package

は提出：

spark-submit --class com.mydomain.spark.wordcount.ScalaWordCount --master yarn-cluster /usr/local/sparkapps/WordCount/target/scala-2.10/scalawordcount_2.10-1.0.jar

出力：

Exception in thread "main" org.apache.spark.SparkException: Application application_1460107053907_0003 finished with failed status 
at org.apache.spark.deploy.yarn.Client.run(Client.scala:1034) 
at org.apache.spark.deploy.yarn.Client$.main(Client.scala:1081) 
at org.apache.spark.deploy.yarn.Client.main(Client.scala) 
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
at java.lang.reflect.Method.invoke(Method.java:497) 
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:731) 
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:181) 
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:206) 
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:121) 
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

スパークログファイル： http://pastebin.com/FnxFXimM

出典

2016-04-08 Mike

を使用し '入力パスが存在しません：HDFS：//localhost：9000/home/hduser/inputfile.txt' – swish

ログから::

16/04/08 12:24:41 ERROR ApplicationMaster: User class threw exception: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost:9000/home/hduser/inputfile.txt

ローカルファイルを読みたい場合は、

val logFile = "file:///home/hduser/inputfile.txt"

出典

2016-04-08 12:19:58 banjara

ありがとう、それはとても恥ずかしい – Mike

Yarn、HadoopでSpark scalaジョブを送信するには

答えて

関連する問題