2017-12-20 8 views
0

私はpysparkの新しいです。 pysparkから驚くべきことは、HDFS倍の日付を修正するいくつかの機能があるのですか?このようなHDFSのようPyspark check hdfs folder修正日

:pysparkで enter image description here

def get_user_folder_update_date(): 
    magic() 
    return update_time 

print get_user_folder_update_date() 
2017-12-20 

答えて

3

あなたは日付を取得するためにHDFSファイルやディレクトリの更新時刻を取得するためにファイルシステムAPIを使用して、Pythonの時間整形機能することができます期待されるフォーマットで。例:

import time 
path = lambda p: spark._jvm.org.apache.hadoop.fs.Path(p) 
fs = spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration()) 

time_ts = fs.getFileStatus(path('/tmp')).getModificationTime() 
print(time.strftime("%Y-%m-%d", time.localtime(time_ts/1000))) 
関連する問題