2016-07-06 3 views
0

ディレクトリの下にフォルダのリストがあります(例:2016/06/03/00/File.json.gz "))。ディレクトリ内の最初の5つのフォルダの読み方:Spark

val df = sqlContext.jsonFile("s3://testData/2016/06/*/*/*") 
df.show() 

しかし、私は06の内側にちょうど最初の5つのフォルダを読むことをお勧めします( - 日と、それぞれが時間のフォルダを持っている-00..23 josnfilesを持っているすべてのフォルダが01 ... 30のようなもの):を持つファイル

val df = sqlContext.jsonFile("s3://testData/2016/06/0*/*/*") 

は私がRにしたい:

は、私のような何かを行うことができますead 01,02,03,04,05のフォルダ(5日間)を残しておきます

もっと良い方法がありますか?

答えて

3

これを試してみてください:

val df = sqlContext.jsonFile("s3://testData/2016/06/0[1-5]/*/*") 
関連する問題