2017-09-26 1 views
0

私は、変数を予測するランダムなフォレストモデルを持っています。この変数は、カテゴリカルクラスではなく、0から1までの数値です。この場合、生成されたモデルの精度を評価する最善の方法は何ですか?連続データのランダムフォレストモデルの精度を評価する最良の方法は?

トレーニングとテストの部分を分割し、テストクラスの予測値と観測値の線形相関を単純に計算する必要がありますか?

もっと洗練されたソリューションはありますか?もしそうなら、どのパッケージがこれを実装していますか?

+2

これは統計的な問題ではなく、プログラミングの一つであり、それは、スタックオーバーフローないstats.stackexchangeにする必要があります。それは、そこにさえ、貧しい疑問であろうと言いました。おそらく、あなたが使っているランダムなフォレストパッケージには良い選択肢(平均2乗誤差とR^2など)があります。おそらく、デフォルトのオプションやその他の組み込みのオプションを調べてから、自分で作成することを考慮する必要があります。 – Gregor

答えて

0

もちろん、いくつかのデータをテスト(対電車)として分割することはできますが、ランダムフォレストでは、「組み込み」の袋外(OOB)エラーがあるため、通常は不要です。ここで「mtcars」データセットの木の#対OOBエラーを示すで終わる例です。

install.packages("randomForest") 
library(randomForest) 

head(mtcars) 
set.seed(1) 
fit <- randomForest(mpg ~ ., data = mtcars, importance = TRUE, proximity = TRUE) 
print(fit) 

# Look at variable importance: 
importance(fit) 

# OOB error vs. # of trees 
plot(fit) 
関連する問題