Spark/HadoopがAWS EMRのファイルを見つけることができません

私はpython sparkライブラリを使用してAmazon EMRのテキストファイルを読み込もうとしています。ファイルはホームディレクトリ（/ home/hadoop/wet0）にありますが、sparkが見つからないようです。問題のSpark/HadoopがAWS EMRのファイルを見つけることができません

ライン：

lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])

エラー：

pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'

ファイルが特定のディレクトリにあることがありますか？私はAWSのウェブサイト上のどこにでもこの情報を見つけることができません。

出典

2016-11-11 NmdMystery

'hadoop fs -ls/user/hadoop /'の出力を印刷してもよろしいですか？ – eliasah

ローカルファイルシステムの場合、URLはfile：// user/hadoop/wet0でなければなりませんそのファイルがHDFSの場合、有効なパスである必要があります。見に取るのHadoop fsコマンドを使用します

例：

1を見に考えるのHadoopのfs -ls /ホーム/ Hadoopを、あなたはそれを「/ホーム/ Hadoopの」でだと言うが、エラーでパス"/ user/hadoop"です。コマンドラインで〜を使用していないことを確認してください。なぜなら、bashはsparkが見る前に拡張を行うからです。フルパス/ home/hadoopを使用するのに最適

出典

2016-11-11 11:50:36

ありがとう、これは問題でした。 – NmdMystery

Spark/HadoopがAWS EMRのファイルを見つけることができません

答えて

関連する問題