私のデータフレーム内のIは、のすべての値にわたる平均、標準偏差および変動の共効率を計算しようとしている(FID_Bounda
、NAME
、DESCRIPTIO
& SOVEREIGNT
によって定義される)の下各列はcrN
で始まります。Rのddply行要約統計
structure(list(FID_Bounda = 0:7, NAME = c("Bedfordshire", "Berkshire",
"Bristol", "Buckinghamshire", "Cambridgeshire", "Cheshire", "Derbyshire",
"Devon"), DESCRIPTIO = c("Ceremonial County", "Ceremonial County",
"Ceremonial County", "Ceremonial County", "Ceremonial County",
"Ceremonial County", "Ceremonial County", "Ceremonial County"
), SOVEREIGNT = c("England", "England", "England", "England",
"England", "England", "England", "England"), crN1 = c(61.944107636,
38.769347117, 0.810167027, 63.721241962, 191.046323469, 81.467146994,
61.65529268, 288.751788714), crN10 = c(60.33595964, 38.326639788,
0.834289164, 63.009539538, 185.25772542, 82.936101454, 61.985178493,
304.951827268), crN100 = c(53.385110882, 33.530058107, 0.739041324,
55.601839364, 165.604271128, 76.386014559, 55.591194915, 284.739586188
), crN1000 = c(58.397452282, 37.277298648, 0.820739862, 61.716749153,
175.436497697, 82.461823706, 61.762203751, 321.414544333)), .Names = c("FID_Bounda",
"NAME", "DESCRIPTIO", "SOVEREIGNT", "crN1", "crN10", "crN100",
"crN1000"), row.names = c(NA, 8L), class = "data.frame")
私は、これらの値を導出するcookbook-rに概説されたコードを使用しようとしました:
正しくcrN
列の合計Nをカウントしますが、それは行ごとに同じ平均、SDおよびSEを与える
cdata <- ddply(uadt, c("FID_Bounda","NAME","DESCRIPTIO","SOVEREIGNT"), summarise,
N = length(grep("crN", names(uadt), value = T)),
mean = mean(grep("crN", names(uadt), value = F)),
sd = sd(grep("crN", names(uadt), value = F)),
se = sd/sqrt(N)
)
cdata
。実際のデータセットには、すべて同じ名前パターンのcrNnumber
を持つ1000列があるため、問題がどこにあるかについての助けとなります。