2017-07-07 6 views
0

Alan Agrestiによる線形モデルと一般化線形モデルの基礎では、バイナリデータモデリングのグループ化データとグループ化されていないデータに違いがあることを指摘しています。形式は推論のために重要ではありませんが、適合の良さについては重要です。グループ化されていないデータからグループ化されたデータを効率的にdplyrで取得するのが難しいです。dplyrでグループ化されたデータ

#ungrouped data 
x = c(rep(0,4),rep(1,4),rep(2,4)) 
y = c(c(1,0,0,0,1,1,0,0,1,1,1,1)) 
data = as_tibble(list(x=x,y=y)) 
> data 
# A tibble: 12 × 2 
     x  y 
    <dbl> <dbl> 
1  0  1 
2  0  0 
3  0  0 
4  0  0 
5  1  1 
6  1  1 
7  1  0 
8  1  0 
9  2  1 
10  2  1 
11  2  1 
12  2  1 

今グループ化された取得するためのデータ形式は、私が

data %>% 
group_by(x,y) %>% 
    tally() 
     x  y  n 
    <dbl> <dbl> <int> 
1  0  0  3 
2  0  1  1 
3  1  0  2 
4  1  1  2 
5  2  1  4 

次試してみましたが、次の

x ntrials nsuccesses 
0  4   1 
1  4   2 
2  4   4 

のようになります。問題はyは成功と失敗に分割されていることです。

答えて

1

あなたは、列のxでわずかグループ化することができ、その後、カラムYをもとにまとめたもの:

data %>% group_by(x) %>% summarise(ntrials = n(), nsuccesses = sum(y)) 
# the number of successes is the sum of y if y is binary 

# A tibble: 3 x 3 
#  x ntrials nsuccesses 
# <dbl> <int>  <dbl> 
#1  0  4   1 
#2  1  4   2 
#3  2  4   4 
+0

パーフェクト!ありがとう! – Alex

+0

ようこそ。がんばろう。 – Psidom

関連する問題