Windowsマシンにhadoopとsparkの両方をローカルにインストールしました。WindowsのローカルHDFSにアクセスするにはどうすればよいですか?
Iは、例えば、Hadoopの中で予想通り
hdfs dfs -tail hdfs:/out/part-r-00000
作品をHDFSファイルにアクセスすることができます。しかし、スパークシェルから同じファイルにアクセスしようとすると、たとえば
val f = sc.textFile("hdfs:/out/part-r-00000")
ファイルが存在しないというエラーが表示されます。 Sparkは、file:/ ...構文を使用してWindowsファイルシステム内のファイルにアクセスできます。
私はHADOOP_HOME環境変数をhadoopインストールを含むフォルダであるc:\ hadoopに設定しました(特に、sparkに必要なwinutils.exeはc:\ hadoop \ binにあります)。
HDFSデータがc:\ tmpフォルダに格納されているように見えるので、私はこの場所についてsparkに知らせる方法があるのか疑問に思っていました。
ご協力いただければ幸いです。ありがとうございました。
あなたの問題解決する必要があります。 –
Sparkは、あなたの 'hadoop-env.sh'、' core-site.xml'、そしておそらく 'hdfs-site.xml'ファイルについて知る必要があります –