1

私たちはその属性値に基づいて売上量を予測しようとしています。トレーニングデータは約8000レコードです。同じ8000レコードの販売数量? 私は8,000レコードの販売数量+または - 0.1の24000(3 * 8000)レコードの新しいトレーニングセットを用意したいランダムフォレストとニューラルネットワークによる回帰のためのトレーニングデータを人工的に増やす

例:元のデータ販売数量= 2の場合、新しいデータは2,2.1と1.9同じ商品です

+3

これは、crossValidatedまたはdatascience.stackexchange.comに投稿された方がよい方法論の質問です。私はあなたがここから質問を削除し、それらのサイトの1つで質問することをお勧めします。 – lmo

+4

この質問は、DataScienceまたはCrossValidatedスタックでより適切に求められます。なぜなら、これはコード以外の概念コンピューティングであるからです。あなたが正しいことを理解しているならば、プレディクタを少し変更して、より強固なプレディクタを構築しようとするより多くのデータを作成する必要があるかどうかを尋ねています。私の答えはノーだろう!あなたはより良いモデルを構築しないノイズに基づいて訓練を受けます。現在のデータからのブートストラップはより良い方法であり、ランダムな森林サンプリング方法の基礎となります。 – sconfluentus

答えて

0

バリエーションの有用性は、属性のスカラー量によって異なります。たとえば、フィーチャの範囲が(0-100)の場合、+/- 0.1を加算すると無駄になります。それが(0 < x < +1、ちょうど例である)場合、はい、バリエーションは良い違いを作ることができます。

あなたのデータ(http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html)を正規化し、バリエーションを追加するのがより良い方法だと思います。

カテゴリデータがある場合は、必要に応じてダミー変数に変換できます(https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html)。

0

不適切なアイデア!直観的にはそれは本当に助けにならないからです。不必要に、ランダムなフォレストまたはNNモデルをオーバーフィットする可能性があります。

関連する問題