-1

そのデータフレームで操作を実行する前に、複数のjsonファイルデータを1つのデータフレームにマージしようとしています。私は、2つのファイルがFILE1.TXTだから私は両方のファイルにずつ読んでいますpyspark dataframe 1つのデータフレームに複数のjsonファイルデータをマージする

{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"} 

FILE2.TXT

FILE1.TXT

{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"} 

などのデータが含まれているFILE2.TXTを考えてみましょうこのようなもの

range = ["file1","file2"] 
for r in range: 
    df = spark.read.json(r) 
df.groupby("b","c","d").agg(f.sum(df["a"])) 

しかし、データフレームは最初のデータフレームデータを上書きしており、2番目のデータのみを表示していますフレームデータ。これらのデータフレームをどのように連結できますか?前もって感謝します!

答えて

3

df変数を上書きするのではなく、データフレームを結合する必要があります。例:上記のコード

>>> dataframes = map(lambda r: spark.read.json(r), range) 
>>> union = reduce(lambda df1, df2: df1.unionAll(df2), dataframes) 

は、対応するデータフレームと組合それらをすべてにrange配列からすべてのファイルをマッピングします。

+0

すばやくお返事ありがとうございます。それは完璧に動作しています。 – gashu

関連する問題