2016-10-18 1 views
1

lmとプレーン行列代数を使って簡単な回帰を計算したかったのです。しかし、行列代数から得られた回帰係数は、lmを使用して得られたものの半分に過ぎず、私は理由を知りません。正規方程式を解くと、 `lm`を使って異なる係数が得られますか?

ここでコード

boot_example <- data.frame(
    x1 = c(1L, 1L, 1L, 0L, 0L, 0L, 0L, 0L, 0L), 
    x2 = c(0L, 0L, 0L, 1L, 1L, 1L, 0L, 0L, 0L), 
    x3 = c(1L, 0L, 0L, 1L, 0L, 0L, 1L, 0L, 0L), 
    x4 = c(0L, 1L, 0L, 0L, 1L, 0L, 0L, 1L, 0L), 
    x5 = c(1L, 0L, 0L, 0L, 0L, 1L, 0L, 1L, 0L), 
    x6 = c(0L, 1L, 0L, 1L, 0L, 0L, 0L, 0L, 1L), 
    preference_rating = c(9L, 7L, 5L, 6L, 5L, 6L, 5L, 7L, 6L) 
) 
dummy_regression <- lm("preference_rating ~ x1+x2+x3+x4+x5+x6", data = boot_example) 
dummy_regression 

Call: 
lm(formula = "preference_rating ~ x1+x2+x3+x4+x5+x6", data = boot_example) 

Coefficients: 
(Intercept)   x1   x2   x3   x4   x5   x6 
    4.2222  1.0000  -0.3333  1.0000  0.6667  2.3333  1.3333 

###The same by matrix algebra 
X <- matrix(c(
c(1L, 1L, 1L, 0L, 0L, 0L, 0L, 0L, 0L), #upper var 
c(0L, 0L, 0L, 1L, 1L, 1L, 0L, 0L, 0L), #upper var 
c(1L, 0L, 0L, 1L, 0L, 0L, 1L, 0L, 0L), #country var 
c(0L, 1L, 0L, 0L, 1L, 0L, 0L, 1L, 0L), #country var 
c(1L, 0L, 0L, 0L, 0L, 1L, 0L, 1L, 0L), #price var 
c(0L, 1L, 0L, 1L, 0L, 0L, 0L, 0L, 1L) #price var 
), 
nrow = 9, ncol=6) 

Y <- c(9L, 7L, 5L, 6L, 5L, 6L, 5L, 7L, 6L) 

#Using standardized (mean=0, std=1) "z" -transformation Z = (X-mean(X))/sd(X) for all predictors 
X_std <- apply(X, MARGIN = 2, FUN = function(x){(x-mean(x))/sd(x)}) 

##If constant shall be computed as well, uncomment next line 
#X_std <- cbind(c(rep(1,9)),X_std) 

#using matrix algebra formula 
solve(t(X_std) %*% X_std) %*% (t(X_std) %*% Y) 

      [,1] 
[1,] 0.5000000 
[2,] -0.1666667 
[3,] 0.5000000 
[4,] 0.3333333 
[5,] 1.1666667 
[6,] 0.6666667 

だ誰もが私の行列計算でエラーが表示していますか?

ありがとうございます!

答えて

3

lmは標準化を行っていません。あなたはlmで同じ結果を取得したい場合は、以下のものが必要です。

X1 <- cbind(1, X) ## include intercept 

solve(crossprod(X1), crossprod(X1,Y)) 

#   [,1] 
#[1,] 4.2222222 
#[2,] 1.0000000 
#[3,] -0.3333333 
#[4,] 1.0000000 
#[5,] 0.6666667 
#[6,] 2.3333333 
#[7,] 1.3333333 

私たちはcrossprodを使用する必要があることを繰り返したくはありません。 「フォローアップ」のRidge regression with glmnet gives different coefficients than what I compute by “textbook definition”?の部分を参照してください。

関連する問題