名前を保持している列名の配列を使用してSparkデータフレームを集約します。

列名の配列を入力として使用してSparkデータフレームを集約し、同時に列の元の名前を保持したいとします。名前を保持している列名の配列を使用してSparkデータフレームを集約します。

df.groupBy($"id").sum(colNames:_*)

これは機能しますが、名前を保持できません。それは、これは、アレイ全体のために起こることができますどのように

df.groupBy($"id").agg(sum(colNames(2)).alias(colNames(2)))

のような単一の要素を取るために働く

df.groupBy($"id").agg(sum(colNames:_*).alias(colNames:_*)) 
error: no `: _*' annotation allowed here

：？その答えに触発され、私はunsucessfullyこれを試してみましたhereを見つけましたか

2016-09-08 johnblund

だけの別名で列の順序を提供します。

val colNames: Seq[String] = ??? 
val exprs = colNames.map(c => sum(c).alias(c)) 
df.groupBy($"id").agg(exprs.head, exprs.tail: _*)

2016-09-08 12:35:01 zero323

をはい、私はそれがこのようなものになるだろうと推測。しかし、まだそれを動作させることはできません。エラー：いいえ '：_ * '注釈はここで許可されました（注釈は* -parametersの引数でのみ使用できます） – johnblund

申し訳ありませんが、合計ではありません。 – zero323

ええ、私もcolNamesがexprsであるべきであることを理解しました。 – johnblund

答えて