私はアンディ・フィールドでRを使用し、この一節に遭遇してきた自己勉強発見統計きた:モデルをRのデータに「強制」する? (線形回帰)
データ分割:このアプローチは、ランダムに計算し、 セットにデータを分割する必要がデータの両方の半分について回帰式を計算し、結果モデルを比較する。段階的な方法を使用する場合は、 のクロスバリデーションが良いアイデアです。あなたのケースの約80%を無作為に選択して段階的に 回帰を実行する必要があります。 このモデルを残りの20%のデータに適用します。 2つのサンプルでの値R2の とb値を比較することによって、あなたは(より 詳細は、Tabachnick & Fidell、2007を参照) 元のモデルがを一般どれだけ伝えることができます。
さてさて、私は(sample()
を使用して)私のデータをサブセット化を理解し、そして私は線形モデル(using lm()
)を取り付けますが、ラインが 混乱「次に、データの残りの20%にこのモデルを強制」する方法を知っています私。
このテクニックは、この本の中で再び公開されることはありません。 Rにモデルを強制的にデータに載せて、その強制モデルを使ってR^2
とb-values
を計算する関数がありますか?おそらく、傍受と勾配係数を入力して、summary(lm)
のようなものを出力する関数がありますか?
また、この記事の内容を理解していないと思いますか?
は 'predict()'関数 - '?predict'を見ています。 – Bulat
私は「力」によって「使用」を意味すると信じています。基本的に、彼らはデータの元の80%の段階的回帰を提唱して以来(悪い提案ですが、私はそこに入りたくありません)、彼らはあなたが最終的に決定したどのモデルでも言っています。残りのデータ。モデルが元のデータのx1 + x2 + x5になると、もう一方の20%でモデルx1 + x2 + x5を使用します。 – Dason
また、クロスバリデーションのために、予測パッケージの 'CV'関数を見てください。ここにはcvメトリックの詳細があります - http://robjhyndman.com/hyndsight/crossvalidation/ – Bulat