1

Sparkのデータフレームは、外部ファイルから作成することができます。複数のファイルを使用して単一のオブジェクトを作成する方法はありますか?複数のソースから1つのSpark Dataframeを作成しますか?

EX: 同じデータ(曜日に購入したアイテムの数など)を記録するcsvファイルまたは寄木細工ファイルがあるとします。毎週のファイルから1つのデータフレームを初期化して、1週間の購入データを表す単一のデータフレームを取得する方法はありますか?

答えて

2

ファイルからの読み込みの読み取り方法は、基礎となるHadoop APIによって異なります。これは、圧縮されたファイルや複数のファイルを処理できることを含め、同じ使用法を拡張していることを意味します。

あなたの場合は、ワイルドカードを使用してファイルを入力するか、カンマで区切って入力します。 How to read multiple text files into a single RDD?

+0

私が1種類のファイルでフォルダ名を指定した場合、Sparkはそのフォルダ内のすべてのデータを取り込むことができますか? – knowads

+1

はい、パス指定子 ''/my/own/path/* ''を使用して、すべて同じ方法でそれらを解析できると仮定します。 – YoYo

関連する問題