私は次のような問題があります。データフレームには、最初の行が日付である行と列がたくさんあります。それぞれの日付について、私は1回以上の観測を行い、それらを要約したいと思います。異なる機能を持つ異なる列を要約する
私のDFは(日付は使いやすさのためにIDに置き換え)のようになります。
df:
ID Cash Price Weight ...
1 0.4 0 0
1 0.2 0 82 ...
1 0 1 0 ...
1 0 3.2 80 ...
2 0.3 1 70 ...
... ... ... ... ...
私は最初の列でグループにしたいし、すべての行をまとめるが、異なる機能を持つ:
関数CashとPriceはの合計である必要がありますので、各IDの現金と価格の合計を求めます。 Weightの関数はmaxであるため、IDの最大の重みしか得られません。
私は私が手ですべての機能を記述することはできませんので、多くの列を持っているが、私は残りの部分は合計で要約しなければならない最大で要約しなければならない唯一の2列を持っているので。
だから私はIDによるグループへの機能を探しています、私は最大値を必要とする2つの異なる列を除く合計ですべてをまとめます。
私はdplyrパッケージを使用しようとしました:
df %>% group_by(ID = tolower(ID)) %>% summarise_each(funs(sum))
しかし、私はほかの2つの指定した列、任意のアイデアを合計しますが、最大ではないする必要がありますか?
明確にするために、例えばDFの出力は次のようになります。
ID Cash Price Weight
1 0.6 4.2 82
2 0.3 1 70
おかげで、これは動作しているようです! '加重'を除いたすべての列に**合計**を適用する追加がありますか? '重さ'の列には**最大**を使用します。私は90+の列を持っているので、これは書くのに苦労するでしょう:) – Max
@Maxそれはあなたが 'data.table'を使ってタスクを達成する方法の一つです –