2016-11-11 12 views
1

私はpython sparkライブラリを使用してAmazon EMRのテキストファイルを読み込もうとしています。ファイルはホームディレクトリ(/ home/hadoop/wet0)にありますが、sparkが見つからないようです。問題のSpark/HadoopがAWS EMRのファイルを見つけることができません

ライン:

lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0]) 

エラー:

pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;' 

ファイルが特定のディレクトリにあることがありますか?私はAWSのウェブサイト上のどこにでもこの情報を見つけることができません。

+1

'hadoop fs -ls/user/hadoop /'の出力を印刷してもよろしいですか? – eliasah

答えて

1

ローカルファイルシステムの場合、URLはfile:// user/hadoop/wet0でなければなりません そのファイルがHDFSの場合、有効なパスである必要があります。見に取るのHadoop fsコマンドを使用します

例:

1を見に考えるのHadoopのfs -ls /ホーム/ Hadoopを、あなたはそれを「/ホーム/ Hadoopの」でだと言うが、エラーでパス"/ user/hadoop"です。コマンドラインで〜を使用していないことを確認してください。なぜなら、bashはsparkが見る前に拡張を行うからです。フルパス/ home/hadoopを使用するのに最適

+0

ありがとう、これは問題でした。 – NmdMystery

関連する問題