2016-06-16 4 views
1

複数のファイルを1つのデータフレームとしてロードできますか?私はロードするために一つのファイルを持っている場合、通常、私は、例えば呼び出します。複数のファイルをデータフレームにロード

file1 = "https://stackoverflow.com/a/b/c/folder/file1.csv" 
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1) 

しかし、私は、フォルダ/a/b/c/folder/*.csv下のすべてのファイルをロードします。

+0

'dc = sqlContext.read.format( 'com.databricks.spark.csv')。 load( "a/b/c/folder/*。csv") 'それはエラーを投げますか?それは動作しますか? –

+0

「java.lang.ArrayIndexOutOfBoundsException:18002」というエラーが発生する – hdy

答えて

0

だと思います。sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(folder)です。以前は圧縮ファイルが用意されていて、メモリと比較してサイズが大きすぎてエラーが発生しました。

関連する問題