静的でない "train_test_split"によるモデル評価？

オンラインのリソースによると、sklearn.cross_validationモジュールの "train_test_split"関数はデータをランダムな状態で返します。静的でない "train_test_split"によるモデル評価？

同じデータでモデルを2回トレーニングすると、学習プロセスで使用されるトレーニングデータポイントがそれぞれ異なるため、2つの異なるモデルが得られますか？

実際に、この2つのモデルの精度は大きく異なる可能性がありますか？それは可能なシナリオですか？

2017-03-05 DesirePRG

再現性のある動作をしたいが、それでもなおランダム分割に基づいている場合（これはPRNGの基本的なパターンです）、シードを一定に設定できます。これをしないと、おそらく時間ベースのシーディングが使用され、結果は異なります。これらの違いには理論的な制限はありません。理論的には破局的である可能性があります（使用するクラシファイアに応じて）。 – sascha

データ分割を再現するために、random_stateパラメータを一定の値に設定できます。一方、あなたが知っていることを正確にテストすること、つまり、異なるランドーム状態で少なくとも2回トレーニングを実行し、結果を比較することは、一般的には良い考えです。それらが大きく異なる場合は、何かが間違っていて、ソリューションが信頼できないという兆候です。

出典

2017-03-05 15:51:51 slonopotam

静的でない "train_test_split"によるモデル評価？

答えて

関連する問題