合計でpysparkグループ

-1

私は4列のpysparkデータフレームを持っています。合計でpysparkグループ

ID /番号/値/ X

私は列のID、番号をGROUPBY、その後、IDと数当たりの価値の合計と新しい列を追加したい

。私はそれに何もせずにコロンブスxを維持したい。

終わり

df= df.select("id","number","value","x") 
     .groupBy('id', 'number').withColumn("sum_of_value",df.value.sum())

私は5列のデータフレームたい：ID /番号/値/ X/sum_of_value）を

誰でも助けることができていますか？

（あなたのコードフォーマット親切に、そして次の時間）いくつかのサンプルデータを入力してください – desertnaut

-2

は、あなたのデータフレームDFは当初3列を持っているとしましょう。

df1 = df.groupBy("id","number").count()

ここで、df1には、id、number、countという2つの列が含まれます。

今、あなたは、列「ID」と「数」に基づいてDF1とDFに参加し、あなたが選択したいものは何でも列を選択することができます。

希望します。

よろしく、

Neeraj

2017-12-15 14:59:19

合計値、:-)カウントしません – Quetzalcoatl

答えて