まず、私はあなたが実際に機械学習アルゴリズムを適用する前に、異なるモデルのパフォーマンスをチェックするために、クロスバリデーションを使用すべきだと思います。資料hereをご覧ください。
私はどのように分かち書きデータセットを知りません。あなたはPythonを使っているので、sklearnとpandas(pythonモジュール)を使うことを強くお勧めします。これはどのように動作するのですx_train, x_validation, y_train, y_validation = model_selection.train_test_split(x,y,test_size=self.validation_size,random_state=self.seed,stratify=y
。詳細な情報はhereです。
線形回帰で列車試験の分割を実行する必要がありますか?はい、そうです。 データセットを分割してモデルに合うようにすべてのデータを訓練しないと、あなたが言ったようにオーバーフィットになります。つまり、最終的な予測精度は「素晴らしい」ことを意味します。しかしそれは信頼できません。このモデルは訓練データ上では非常に正確ですが、訓練されていないデータや新しいデータでは正確ではないでしょう。
私はこれがあなたに質問に答えることを願っています。
私が知る限り、線形回帰のデータをテストする必要はありません。異種分散、多重共線性(そして相関変数を取り除く)をテストし、仮定をテストしてモデルを改善するだけです。 しかし、どのようにExcelがそれを行うかわかりません。 – AlexanderMP