このスレッドは見つかりませんでしたFind rows in dataframe with maximum values grouped by values in another column解決策の1つが議論されました。私は再帰的に最大量の行インデックスを見つけるためにこのソリューションを使用しています。しかし、私のソリューションは非常に醜いです - ベクトル化ではなく非常に手続き的です。ここで最大値に対応するインデックスを見つける
は私のダミーデータです:
dput(Data)
structure(list(Order_Year = c(1999, 1999, 1999, 1999, 1999, 1999,
1999, 2000, 2000, 2001, 2001, 2001, 2001, 2001, 2001, 2001, 2002,
2002, 2002, 2002), Ship_Year = c(1997, 1998, 1999, 2000, 2001,
2002, NA, 1997, NA, 1997, 1998, 1999, 2000, 2001, 2002, NA, 1997,
1998, 1999, 2000), Yen = c(202598.2, 0, 0, 0, 0, 0, 2365901.62,
627206.75998, 531087.43, 122167.02, 143855.55, 0, 0, 0, 0, 53650.389998,
17708416.3198, 98196.4, 31389, 0), Units = c(37, 1, 8, 5, 8,
8, 730, 99, 91, 195, 259, 4, 1, 3, 3, 53, 3844, 142, 63, 27)), .Names = c("Order_Year",
"Ship_Year", "Yen", "Units"), row.names = c(NA, 20L), class = "data.frame")
私はYen
とUnits
が与えられたOrder_Year
のために最大であるためShip_Year
を知りたいです。
は、ここに私が試したものです:
a<-do.call("rbind", by(Data, Data$Order_Year, function(x) x[which.max(x$Yen), ]))
rownames(a)<-NULL
a$Yen<-NULL
a$Units<-NULL
#a has Ship_Year for which Yen is max for a given Order_Year
names(a)[2]<-"by.Yen"
#Now I'd find max year by units
b<-do.call("rbind", by(Data, Data$Order_Year, function(x) x[which.max(x$Units), ]))
rownames(b)<-NULL
b$Yen<-NULL
b$Units<-NULL
#b has Ship_Year for which Units is max for a given Order_Year
names(b)[2]<-"by.Qty"
c<-a %>% left_join(b)
予想される出力は次のようになります。
c
Order_Year by.Yen by.Qty
1 1999 NA NA
2 2000 1997 1997
3 2001 1998 1998
4 2002 1997 1997
私が期待される出力を得ながら、上記の方法は非常に不格好です。これを処理するより良い方法はありますか?
@akrun - ありがとうございました。手順を説明してもらえますか?あなたのコードを実行しようとしましたが、実際には理解できませんでした。 – watchtower
@watchtower説明を更新しました。あなたが助けてくれてありがとう。 – akrun
シンプルさのためにAlistaireの答えを答えにすることを考えました。ご理解頂けるとありがたいです。 – watchtower