私のデータセットは多くの冗長な観測値を持っています(ただし、各観測値はカウントする必要があります)。だから私はGAMで 'weights'オプションを使うことを考えています。これは、計算時間を大幅に短縮するからです。GAMのウェイトオプション
「が2の量は、例えば、正確に作られたと等価であることに注意してください。
gam
関数(mgcv
パッケージ内)は、それらが(?gam
からweights
引数に)「同等」であると説明します同じ観察を二度。
しかし、正しくはないようです。
yy = c(5,2,8,9)
xx = 1:4
wgts = c(3,2,4,1)
yy2 = rep(yy, wgts)
xx2 = rep(xx, wgts)
mod1 = gam(yy2 ~ xx2)
mod2 = gam(yy ~ xx, weights = wgts)
mod3 = gam(yy ~ xx, weights = wgts/mean(wgts))
predict(mod1,data.frame(xx2=1:4))
predict(mod2,data.frame(xx=1:4))
predict(mod3,data.frame(xx=1:4))
推定値は3つのモデルすべてで同じです。 標準誤差はモデル2とモデル3では同じですが、モデル1では異なります。 GCVは3つのモデルすべてで異なります。
GCVが異なる可能性があります。しかし、標準エラーが異なる場合、モデルは同一であるとはどういうことができますか?これはエラーですか、それとも良い説明がありますか?
どのようなフルサービスの回答ですか?非常に徹底的。 – Gregor
まず、GAMと線形回帰は全く異なる働きをします。したがって、「lm」で説明することは不適切かもしれません。線形回帰(または加重線形回帰)は、行列計算、(X'X)^(-1)X'y(X'WX)^( - 1)X'Wy)によって係数を見つける。一方、GAM推論は、このような行列計算を伴わない。彼らは最尤法を使用します。 GAMマニュアルには、「重み」オプションは「対数尤度に対するデータの寄与に対する事前重み」であるとも言われています。 – user67275
さらに、私はGAMの「重み」が異分散を扱うために使用されることを意図しているのかどうかはわかりません。 「gam」マニュアルには、「同じ観測を2回正確に行った」という状況でウェイトオプションを使用することができ、その結果(ウェイトを頻繁に使用することとの結びつき)が同じではないのかと疑問に思った。 – user67275