2017-07-21 3 views
0

Rcaretパッケージを使用しています。一部の監視対象の多変量解析に使用しています。私は、スクリプトが実行されるたびに再現可能な結果を​​可能にするスクリプトにいくつかの機能を追加しようとしています。再現性のある結果/結果を伴うキャレット

は、私が(各モデルにはないenesmbleとして、個別に実行される)2つの分類モデルを使用するため、この設定を持っている:

このパイプラインで得るために、私は set.seed(#)を使用する必要がありますし、 #何をする必要があります
library(caret) 

load.data = .... 
cleaned.data = cleaning(load.data) 
mycontrol = trainControl(...) 
train, test = createDatapartition(...) 

model1 = train(..., 
       data=train, ..., 
       trControl=mycontrol, 
       preprocess=c('center')) 
model2 = train(..., 
       data=train, ..., 
       trControl=mycontrol, 
       preprocess=c('pca')) 

feature.importances = ... 
summary(resamples(list(m1=model1,m2=model2))) 
learing_curve_dat(...) #see link 1. below. 
predict() 
Evaluate(....) #see link 2. below 

スクリプトが実行されるたびに再現性のある結果が得られますか、またはランダムに#の値を選択するだけですか?

リンク:

1. 2.

答えて

0

あなたは、パッケージ、Webページ上のNotes on Reproducibilityセクションをお読みください。

シード番号は関係ありません。私はsample.int(100000, 1)で生成します。どのようにモデルをやっているかによって、少なくともtrainを呼び出す直前に種を設定する必要があります(ただし、上記のリンクをお読みください)。