すべての列の値をパンダのデータフレームのインデックスでグループ化する

基本的には、ユーザーが視聴した動画のウォッチは1以外の0で示されます。ユーザーはデータフレームのインデックスです。すべての列の値をパンダのデータフレームのインデックスでグループ化する

A B C 
User1 1 1 0 
User2 0 1 0 
User3 1 0 1

それぞれがその行のすべての1のカウントを使用するために私がしたい：

は、データがこのようなものですと仮定します。

私はこのようなことをしていますが、うまくいかないようです。私はいくつかのapplymap関数を使いたいと思っていません。

は、データフレームの転置メソッドを使用します

出典

2016-07-15 Baktaawar

'df.sum（axis = 1）'は機能しますか？ – Psidom

インデックスに重複したエントリがありますか？ – ayhan

重複するインデックスはありません。 .sum（軸= 1）が機能しないのはなぜですか？ – Baktaawar

-1

を認識していない軸誤差を与えます。

In [38]: d = pd.DataFrame({'A':[1,0,1],'B':[1,1,0],'C':[0,0,1]},index=['User1','User2','User3']) 

In [39]: d 
Out[39]: 
     A B C 
User1 1 1 0 
User2 0 1 0 
User3 1 0 1 

In [40]: d.transpose() 
Out[40]: 
    User1 User2 User3 
A  1  0  1 
B  1  1  0 
C  0  0  1 

In [41]: d.transpose().sum() 
Out[41]: 
User1 2 
User2 1 
User3 2 
dtype: int64

または、Psidomが提案したように、DataFrameの列を合計します。

In [55]: d.sum(axis=1) 
Out[55]: 
User1 2 
User2 1 
User3 2 
dtype: int64

出典

2016-07-15 18:12:28 mtadd

実際、df.sum（軸= 1）がより良い解決策です。 – mtadd

あなたがインデックスに重複がある場合は、二重のsumとgroupbyを使用することができます。

print (df) 
     A B C 
User1 1 1 0 
User1 1 1 1 
User2 0 1 0 
User3 1 0 1 

print (df.groupby(df.index).sum().sum(1)) 
User1 5 
User2 1 
User3 2 
dtype: int64

重複しない場合は、唯一のsum使用 - Psidom commentを：

df.sum(axis=1)

EDIT：

import matplotlib.pyplot as plt 

df.sum(axis=1).plot.hist() 
plt.show()

出典

2016-07-15 18:31:53 jezrael

うんdf.sum（1）が機能します。 sum（）のヒストグラムをユーザー数で取得するとどういうことですか？。 2番目の列をx軸としてプロットし、ヒストグラムとしてのインデックスの数を – Baktaawar

正しく編集できない場合は、編集を確認してください。 – jezrael

それは3つのグラフでなければなりません。それぞれ1,2、および5に1つです。それぞれのユーザーが1人ずつであるため、これらの数は同じになります。 – Baktaawar

すべての列の値をパンダのデータフレームのインデックスでグループ化する

答えて

関連する問題