2016-05-31 2 views
1

Apache Sparkを使い始めました。私はクラスタモードを使用しており、大きなファイルを処理したい。私はSparkContextからtextFileメソッドを使用しています。すべてのノードで使用可能なローカルファイルシステムを読み込みます。 私のファイルが本当に大きいので、各クラスタノードにコピー&ペーストするのは苦労です。私の質問です:共有フォルダのようなユニークな場所にこのファイルを持つ方法はありますか? ありがとうございますローカルファイルとクラスタモード

答えて

2

HadoopまたはS3にファイルを保存してください。 次に、ファイルのパスをtextFileメソッド自体に与えることができます。 S3用

val hdfsRDD = sc.textFile("hdfs://...") 
:Hadoopのための

val data = sc.textFile("s3n://yourAccessKey:[email protected]/path/") 

関連する問題