2017-03-05 9 views
0

オンラインのリソースによると、sklearn.cross_validationモジュールの "train_test_split"関数はデータをランダムな状態で返します。静的でない "train_test_split"によるモデル評価?

同じデータでモデルを2回トレーニングすると、学習プロセスで使用されるトレーニングデータポイントがそれぞれ異なるため、2つの異なるモデルが得られますか?

実際に、この2つのモデルの精度は大きく異なる可能性がありますか?それは可能なシナリオですか?

+2

再現性のある動作をしたいが、それでもなおランダム分割に基づいている場合(これはPRNGの基本的なパターンです)、シードを一定に設定できます。これをしないと、おそらく時間ベースのシーディングが使用され、結果は異なります。これらの違いには理論的な制限はありません。理論的には破局的である可能性があります(使用するクラシファイアに応じて)。 – sascha

答えて

1

データ分割を再現するために、random_stateパラメータを一定の値に設定できます。一方、あなたが知っていることを正確にテストすること、つまり、異なるランドーム状態で少なくとも2回トレーニングを実行し、結果を比較することは、一般的には良い考えです。それらが大きく異なる場合は、何かが間違っていて、ソリューションが信頼できないという兆候です。

関連する問題