スプリットトレーニングとテストデータは優れていますか？

私は最近、Pythonでいくつかの基本的な統計モデリングを学び始めました。そして、Microsoft Excelが線形回帰をどのように扱っているのかが不思議になりました。回帰分析を実行する際に分割トレーニングとテストデータを凌駕しますか？スプリットトレーニングとテストデータは優れていますか？

私が理解する限り、トレーニングデータとテストデータの分割は、データに対するモデルのオーバーフィットを防ぐために使用されます。これは線形回帰のリスクでもありますか？線形回帰で列車試験の分割を行う必要がありますか？

おかげで、すべての

出典

2017-06-22 bugsyb

私が知る限り、線形回帰のデータをテストする必要はありません。異種分散、多重共線性（そして相関変数を取り除く）をテストし、仮定をテストしてモデルを改善するだけです。しかし、どのようにExcelがそれを行うかわかりません。 – AlexanderMP

まず、私はあなたが実際に機械学習アルゴリズムを適用する前に、異なるモデルのパフォーマンスをチェックするために、クロスバリデーションを使用すべきだと思います。資料hereをご覧ください。

私はどのように分かち書きデータセットを知りません。あなたはPythonを使っているので、sklearnとpandas（pythonモジュール）を使うことを強くお勧めします。これはどのように動作するのですx_train, x_validation, y_train, y_validation = model_selection.train_test_split(x,y,test_size=self.validation_size,random_state=self.seed,stratify=y。詳細な情報はhereです。

線形回帰で列車試験の分割を実行する必要がありますか？はい、そうです。データセットを分割してモデルに合うようにすべてのデータを訓練しないと、あなたが言ったようにオーバーフィットになります。つまり、最終的な予測精度は「素晴らしい」ことを意味します。しかしそれは信頼できません。このモデルは訓練データ上では非常に正確ですが、訓練されていないデータや新しいデータでは正確ではないでしょう。

私はこれがあなたに質問に答えることを願っています。

出典

2017-06-22 22:29:22

スプリットトレーニングとテストデータは優れていますか？

答えて

関連する問題