2017-12-15 5 views
-1

私は4列のpysparkデータフレームを持っています。合計でpysparkグループ

ID /番号/値/ X

私は列のID、番号をGROUPBY、その後、IDと数当たりの価値の合計と新しい列を追加したい

。私はそれに何もせずにコロンブスxを維持したい。

終わり
df= df.select("id","number","value","x") 
     .groupBy('id', 'number').withColumn("sum_of_value",df.value.sum()) 

私は5列のデータフレームたい:ID /番号/値/ X/sum_of_value)を

誰でも助けることができていますか?

+1

(あなたのコードフォーマット親切に、そして次の時間)いくつかのサンプルデータを入力してください – desertnaut

答えて

-2

は、あなたのデータフレームDFは当初3列を持っているとしましょう。

df1 = df.groupBy("id","number").count() 

ここで、df1には、id、number、countという2つの列が含まれます。

今、あなたは、列「ID」と「数」に基づいてDF1とDFに参加し、あなたが選択したいものは何でも列を選択することができます。

希望します。

よろしく、

Neeraj

+0

合計値、:-)カウントしません – Quetzalcoatl