0
ディレクトリの下にフォルダのリストがあります(例:2016/06/03/00/File.json.gz "))。ディレクトリ内の最初の5つのフォルダの読み方:Spark
val df = sqlContext.jsonFile("s3://testData/2016/06/*/*/*")
df.show()
しかし、私は06の内側にちょうど最初の5つのフォルダを読むことをお勧めします( - 日と、それぞれが時間のフォルダを持っている-00..23 josnfilesを持っているすべてのフォルダが01 ... 30のようなもの):を持つファイル
val df = sqlContext.jsonFile("s3://testData/2016/06/0*/*/*")
は私がRにしたい:
は、私のような何かを行うことができますead 01,02,03,04,05のフォルダ(5日間)を残しておきます
もっと良い方法がありますか?