列の変数の数の列を追加する

apache sparkでは、 'category'列は常に 'a'または 'b'であるというデータフレームがあります。列の変数の数の列を追加する

 
user_id | category 
==================== 
1  | a 
1  | a 
1  | b 
2  | a 
2  | b 
2  | b

私はそれらのカウントのために列 'a'と列 'b'を作りたいと思っています。私が望む結果は以下の通りです。

 
user_id | a | b 
=============== 
1  | 2 | 1 
2  | 1 | 2

出典

2016-03-21 Shin Kim

検査カウントは、グループによると、PIVOT ...それは簡単クエリだとあなたがそれを行うことができ、戻ってきて、私はあなたがあなたのVeljkoを – Veljko89

ありがとうお手伝いします！ –

あなたはこのために、条件付き集約を使用することができます。

SELECT user_id, 
     COUNT(CASE WHEN category = 'a' THEN 1 END) AS a 
     COUNT(CASE WHEN category = 'b' THEN 1 END) AS b 
FROM mytable 
GROUP BY user_id

出典

2016-03-21 10:31:38

このソリューションでは、 'category'のすべての可能な値が何であるかを事前に知る必要があります。 @DavidGriffin。 –

。。。質問はかなり明確です。「「カテゴリ」は常に「a」または「b」です。 –

これは、アップフロントaとbを知らなくてもそれを行います。

df.groupBy($"id").pivot("category").count().show

出典

2016-03-21 11:00:24

あなたの答えをありがとう！ df.groupBy（$ "id"）。pivot（ "category"、['a'、b ']）。count（）。show（） ' リスト[' a '、' b ']を使用します。 "[reshaping-data-with-spark-in-spark]（https://databricks.com/blog/2016/02/09/reshaping-data-with-pivot-in-spark.html）"も私に役立ちます。 –

おかげですべてを。整合性については、リスト['a'、 'b']を使ってピボットメソッドを使用しました。あなたがしようとした後に問題が発生した場合

df.groupBy($"id").pivot("category", ['a', 'b']).count().show

出典

2016-03-22 06:37:05

列の変数の数の列を追加する

答えて

関連する問題