0
HDFSディレクトリからJSONファイルを読み込む必要があります。処理が完了したら、Sparkはファイルを別のディレクトリに置く必要があります。その間にファイルが追加される可能性がありますので、でないファイルを削除したくないので、Sparkで読み込んだ(処理した)ファイルのリストが必要です。はまだ処理されていません。ファイル名が付いたread.jsonをファイルに添付
ファンクションread.json
は、ファイルを直ちにDataFramesに変換します。これはクールですが、wholeTextFiles
のようなファイル名は表示されません。 JSONデータを読み込んでファイル名を取得する方法はありますか? RDD(JSONデータ付き)からDataFrameへの変換はありますか?
忘れてしまった:私は1.4.1です。 – Ian
それから、うまくいきません。 – mgaido
1.6.0より前ではまったくですか? – Ian