私は擬似分離がR二項GLMにどのように影響するかを学んでいます。そして、私はそれが問題ではないと考え始めます。いくつかの状況。R二項GLMの準分離問題はありますか?
わたしの理解では、 の因子レベルのいくつかの線形結合が失敗/非失敗を完全に識別できるとき、データは準分離を有すると言う。
はその後fail <- c(100,100,100,100)
nofail <- c(100,100,0,100)
x1 <- c(1,0,1,0)
x2 <- c(0,0,1,1)
data <- data.frame(fail,nofail,x1,x2)
rownames(data) <- paste("obs",1:4)
ときX1 = 1、X2 = 1(OBS 3)データは常に失敗しない:
だから私はRで準分離して人工的なデータセットを作成しました。 このデータでは、私の共変量行列には、インターセプトx1とx2の3つの列があります。私の理解では、準分離により無限大の推定が得られます。だからglmフィットは失敗するはずです。ただし、以下GLMフィットは失敗しません:
summary(glm(cbind(fail,nofail)~x1+x2,data=data,family=binomial))
結果は次のとおりです。
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4342 0.1318 -3.294 0.000986 ***
x1 0.8684 0.1660 5.231 1.69e-07 ***
x2 0.8684 0.1660 5.231 1.69e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
STD。疑似分離でもエラーは非常に妥当と思われます。 準分離がglm適合結果に影響しない理由を教えてもらえますか?
はい、その用語のWald標準エラー( '5.2e4')に注意してください(これは* Hauck-Donnerエフェクト*です)。あなたが 'brglm :: brglm()'、 'logistf :: logistf()'、 'rms :: lrm()'( 'penalty'パラメータをセットした)、' arm :: bayesglm ()、... –
@BenBolker私と(他の統計学者の)HDとQSの違いを覚えてくれる学習回答を求める質問を投稿する必要がありますか?それらは両方とも数学的にばかげたパラメータ推定値と関連していますが、それは簡単です: '' coef() ''に関連するQS ...膨らんだ' 'sem()''のHD? –
データに疑似分離が含まれているかどうかを正確に確認することができますか? x [i]> = s、Y_i = 0、x [i] <= sの場合、すべてのi = 1に対して、スカラーと列ベクトルxを見つけるかどうかを確認するだけで十分ですか? 。、n(=サンプルサイズ)? (私の設定では、私はバイナリ共変量しか持たない)。 – ThePrincess