-1
たとえば、支払いデータ[DataFrameで30〜40列]があり、データ量が約4M [巨大ではない]の場合。しかし、DFでgroupByとagg演算を使用して[25〜30]の異なる計算を行う必要があります。Spark SQL - フィールドでグループ化するより良い方法
異なる計算に同じDFを使用するため、cache()
を使用しています。
例DF:
country transactions
IN 1001
IN 1002
UK 1003
UK 1004
現在、私がやっている何が私の質問私は同じことを達成することができ、他の方法は何ですかれる[スパークSQLでデータをグループ化するより良い方法かもしれ
df.groupBy("country").agg(countDisinct(transactions)) as txncnt)
ですreduceByKey or AggregateByKey [RDD operations]?
...あなたは20回のすべての計算のために使用し、それをキャッシュすることができ、グループの計算でDFを作成してみますか? – Shankar
それから私は確かにそのために複数のデータフレームを作成します。 –