dplyrでグループ化されたデータ

Alan Agrestiによる線形モデルと一般化線形モデルの基礎では、バイナリデータモデリングのグループ化データとグループ化されていないデータに違いがあることを指摘しています。形式は推論のために重要ではありませんが、適合の良さについては重要です。グループ化されていないデータからグループ化されたデータを効率的にdplyrで取得するのが難しいです。dplyrでグループ化されたデータ

#ungrouped data 
x = c(rep(0,4),rep(1,4),rep(2,4)) 
y = c(c(1,0,0,0,1,1,0,0,1,1,1,1)) 
data = as_tibble(list(x=x,y=y)) 
> data 
# A tibble: 12 × 2 
     x  y 
    <dbl> <dbl> 
1  0  1 
2  0  0 
3  0  0 
4  0  0 
5  1  1 
6  1  1 
7  1  0 
8  1  0 
9  2  1 
10  2  1 
11  2  1 
12  2  1

今グループ化された取得するためのデータ形式は、私が

data %>% 
group_by(x,y) %>% 
    tally() 
     x  y  n 
    <dbl> <dbl> <int> 
1  0  0  3 
2  0  1  1 
3  1  0  2 
4  1  1  2 
5  2  1  4

次試してみましたが、次の

x ntrials nsuccesses 
0  4   1 
1  4   2 
2  4   4

のようになります。問題はyは成功と失敗に分割されていることです。

出典

2017-07-07 Alex

あなたは、列のxでわずかグループ化することができ、その後、カラムYをもとにまとめたもの：

data %>% group_by(x) %>% summarise(ntrials = n(), nsuccesses = sum(y)) # the number of successes is the sum of y if y is binary # A tibble: 3 x 3 # x ntrials nsuccesses # <dbl> <int> <dbl> #1 0 4 1 #2 1 4 2 #3 2 4 4

出典

2017-07-07 16:48:37 Psidom

パーフェクト！ありがとう！ – Alex

ようこそ。がんばろう。 – Psidom

dplyrでグループ化されたデータ

答えて

関連する問題