pyspark dataframe 1つのデータフレームに複数のjsonファイルデータをマージする

-1

そのデータフレームで操作を実行する前に、複数のjsonファイルデータを1つのデータフレームにマージしようとしています。私は、2つのファイルがFILE1.TXTだから私は両方のファイルにずつ読んでいますpyspark dataframe 1つのデータフレームに複数のjsonファイルデータをマージする

{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"}

FILE2.TXT

FILE1.TXT

{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"}

などのデータが含まれているFILE2.TXTを考えてみましょうこのようなもの

range = ["file1","file2"] 
for r in range: 
    df = spark.read.json(r) 
df.groupby("b","c","d").agg(f.sum(df["a"]))

しかし、データフレームは最初のデータフレームデータを上書きしており、2番目のデータのみを表示していますフレームデータ。これらのデータフレームをどのように連結できますか？前もって感謝します！

2017-03-01 gashu

df変数を上書きするのではなく、データフレームを結合する必要があります。例：上記のコード

>>> dataframes = map(lambda r: spark.read.json(r), range) 
>>> union = reduce(lambda df1, df2: df1.unionAll(df2), dataframes)

は、対応するデータフレームと組合それらをすべてにrange配列からすべてのファイルをマッピングします。

2017-03-01 19:38:36 Mariusz

すばやくお返事ありがとうございます。それは完璧に動作しています。 – gashu

答えて