2017-06-22 1 views
0

私は最近、Pythonでいくつかの基本的な統計モデリングを学び始めました。そして、Microsoft Excelが線形回帰をどのように扱っているのかが不思議になりました。回帰分析を実行する際に分割トレーニングとテストデータを凌駕しますか?スプリットトレーニングとテストデータは優れていますか?

私が理解する限り、トレーニングデータとテストデータの分割は、データに対するモデルのオーバーフィットを防ぐために使用されます。これは線形回帰のリスクでもありますか?線形回帰で列車試験の分割を行う必要がありますか?

おかげで、すべての

+0

私が知る限り、線形回帰のデータをテストする必要はありません。異種分散、多重共線性(そして相関変数を取り除く)をテストし、仮定をテストしてモデルを改善するだけです。 しかし、どのようにExcelがそれを行うかわかりません。 – AlexanderMP

答えて

0

まず、私はあなたが実際に機械学習アルゴリズムを適用する前に、異なるモデルのパフォーマンスをチェックするために、クロスバリデーションを使用すべきだと思います。資料hereをご覧ください。

私はどのように分かち書きデータセットを知りません。あなたはPythonを使っているので、sklearnとpandas(pythonモジュール)を使うことを強くお勧めします。これはどのように動作するのですx_train, x_validation, y_train, y_validation = model_selection.train_test_split(x,y,test_size=self.validation_size,random_state=self.seed,stratify=y。詳細な情報はhereです。

線形回帰で列車試験の分割を実行する必要がありますか?はい、そうです。 データセットを分割してモデルに合うようにすべてのデータを訓練しないと、あなたが言ったようにオーバーフィットになります。つまり、最終的な予測精度は「素晴らしい」ことを意味します。しかしそれは信頼できません。このモデルは訓練データ上では非常に正確ですが、訓練されていないデータや新しいデータでは正確ではないでしょう。

私はこれがあなたに質問に答えることを願っています。

関連する問題