2016-04-20 12 views
0

HDFSディレクトリからJSONファイルを読み込む必要があります。処理が完了したら、Sparkはファイルを別のディレクトリに置く必要があります。その間にファイルが追加される可能性がありますので、でないファイルを削除したくないので、Sparkで読み込んだ(処理した)ファイルのリストが必要です。はまだ処理されていません。ファイル名が付いたread.jsonをファイルに添付

ファンクションread.jsonは、ファイルを直ちにDataFramesに変換します。これはクールですが、wholeTextFilesのようなファイル名は表示されません。 JSONデータを読み込んでファイル名を取得する方法はありますか? RDD(JSONデータ付き)からDataFrameへの変換はありますか?

答えて

0

バージョン1.6以降では、input_file_name()を使用して、行があるファイルの名前を取得できます。したがって、すべてのファイルの名前を取得することができますそれを別のを介して。

+0

忘れてしまった:私は1.4.1です。 – Ian

+0

それから、うまくいきません。 – mgaido

+0

1.6.0より前ではまったくですか? – Ian

関連する問題