1
私はSparkを初めて使用しています。私は属性のgroupby
とcount
をデータフレームdf
に適用しようとしています。pysparkでのカウントとゴロピー相当
df.groupby(['users'])['users'].transform('count')
と同等のものを見つけたい、これはパンダ
users comments
0 1 Hi I heard about Spark
1 1 Spark is awesome
2 2 None
3 2 And I don't know why
4 3 Blah blah
であるように見えます
import pandas as pd
comments = [ (1, "Hi I heard about Spark"),
(1, "Spark is awesome"),
(2, None),
(2, "And I don't know why..."),
(3, "Blah blah")]
df = pd.DataFrame(comments)
df.columns = ["users", "comments"]
:
0 2
1 2
2 2
3 2
4 1
dtype: int64
お手伝いできますか私はこれをどのように実装することができますPySpark
?
ありがとう@data_steve。私の問題は '変換 'の部分にあると思う。私は、同じデータフレーム内に新しいカラム(または 'user'カラム)としてカウントされた値を挿入したいと思います。とにかくこれを行う簡単な方法? – MomoPP
@MomoPP通常、小さなデータの例を挙げて、あなたが何を意味しているのかを説明します。開始する場所と出力する内容の両方を表します。私はあなたのポストでこの文言によってちょっと混乱しています。カウント値で置き換えてください。それは何を指していますか?ユーザー列またはデータフレーム? –
スティーブ、どうもありがとう、ありがとうございました。これまでにこの問題に関する詳細を十分に説明してくれなかったのは残念です。今は完全に意味があります。優れた仕事。 – MomoPP