2016-06-01 8 views
0

私は擬似分離がR二項GLMにどのように影響するかを学んでいます。そして、私はそれが問題ではないと考え始めます。いくつかの状況R二項GLMの準分離問題はありますか?

わたしの理解では、 の因子レベルのいくつかの線形結合が失敗/非失敗を完全に識別できるとき、データは準分離を有すると言う。

はその後
fail <- c(100,100,100,100) 
nofail <- c(100,100,0,100) 
x1 <- c(1,0,1,0) 
x2 <- c(0,0,1,1) 
data <- data.frame(fail,nofail,x1,x2) 
rownames(data) <- paste("obs",1:4) 

ときX1 = 1、X2 = 1(OBS 3)データは常に失敗しない:

だから私はRで準分離して人工的なデータセットを作成しました。 このデータでは、私の共変量行列には、インターセプトx1とx2の3つの列があります。

私の理解では、準分離により無限大の推定が得られます。だからglmフィットは失敗するはずです。ただし、以下GLMフィットは失敗しません:

summary(glm(cbind(fail,nofail)~x1+x2,data=data,family=binomial)) 

結果は次のとおりです。

Coefficients: 
      Estimate Std. Error z value Pr(>|z|)  
(Intercept) -0.4342  0.1318 -3.294 0.000986 *** 
x1   0.8684  0.1660 5.231 1.69e-07 *** 
x2   0.8684  0.1660 5.231 1.69e-07 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

STD。疑似分離でもエラーは非常に妥当と思われます。 準分離がglm適合結果に影響しない理由を教えてもらえますか?

答えて

3

興味深い例を作成しましたが、準分離と記述している状況を実際に調べるモデルはテストしていません。 「x1 = 1かつx2 = 1(obs 3)の場合、データは常に失敗します」と言うときは、モデル内の対話項の必要性を暗示しています。

> summary(glm(cbind(fail,nofail)~x1*x2,data=data,family=binomial)) 

Call: 
glm(formula = cbind(fail, nofail) ~ x1 * x2, family = binomial, 
    data = data) 

Deviance Residuals: 
[1] 0 0 0 0 

Coefficients: 
       Estimate Std. Error z value Pr(>|z|) 
(Intercept) -1.367e-17 1.414e-01 0.000  1 
x1   2.675e-17 2.000e-01 0.000  1 
x2   2.965e-17 2.000e-01 0.000  1 
x1:x2  2.731e+01 5.169e+04 0.001  1 

(Dispersion parameter for binomial family taken to be 1) 

    Null deviance: 1.2429e+02 on 3 degrees of freedom 
Residual deviance: 2.7538e-10 on 0 degrees of freedom 
AIC: 25.257 

Number of Fisher Scoring iterations: 22 

一つは、一般的に2.731e + 01のベータ係数の非常に疑わしいする必要があります:暗黙のオッズ比を、私はこの作業で

> exp(2.731e+01) 
[1] 725407933166 

を、これは「もっと面白い」結果を生成していることに注意してくださいInfと725,407,933,166の間には実質的な違いはありません。

+1

はい、その用語のWald標準エラー( '5.2e4')に注意してください(これは* Hauck-Donnerエフェクト*です)。あなたが 'brglm :: brglm()'、 'logistf :: logistf()'、 'rms :: lrm()'( 'penalty'パラメータをセットした)、' arm :: bayesglm ()、... –

+0

@BenBolker私と(他の統計学者の)HDとQSの違いを覚えてくれる学習回答を求める質問を投稿する必要がありますか?それらは両方とも数学的にばかげたパラメータ推定値と関連していますが、それは簡単です: '' coef() ''に関連するQS ...膨らんだ' 'sem()''のHD? –

+0

データに疑似分離が含まれているかどうかを正確に確認することができますか? x [i]> = s、Y_i = 0、x [i] <= sの場合、すべてのi = 1に対して、スカラーと列ベクトルxを見つけるかどうかを確認するだけで十分ですか? 。、n(=サンプルサイズ)? (私の設定では、私はバイナリ共変量しか持たない)。 – ThePrincess

関連する問題