2016-06-12 5 views
4

私は夜間に解決を探しています。あまりにも多くの機能がオーバーフィッティングの原因になるのはなぜですか?

パラメータが多すぎるとパラメータの数が多すぎますが、パラメータの数とカーブするカーブの関係は何ですか?あなたは(あなたの関数は、通常は滑らかであると)非常に「wigly」曲線を必要とする完全に非常に複雑なデータセット(騒々しい1)を合わせるために -

答えて

1

これは、一般的には、単なる一例です。これは常にそうであるとは言えませんが、特定のクラスの近似器を与えれば、 "スパイク"関数などのような異なる現象を得ることができます。より詳細な調整可能なパラメータは、複合語です。関数の実際の値が指定されているトレーニングセット - 関数は任意の形状を取ることができますトレーニングセットの外に、それは "かわいい"と描かれた理由です。

しかし、それ以外の方法では動作しません。あなたは非常に少数のパラメータを持っている場合、あなたはまだあなたは、ほぼすべてに適合ので、コサインarbitary「密」にすることができ、ワットの大きな十分な規範と例えば

f(x) = cos(<w, x>) 

を検討し、オーバーフィット、および「wigly」機能を持つことができます-1 、データの+1ラベル

2

機械学習では、データをトレーニングセットとテストセットに分割します。トレーニングセットを使用してモデルを適合させ(モデルパラメータを調整する)、テストセットを使用して、モデルが目に見えないデータに対してどれだけうまくいくかを評価します。

オーバーフィッティングとは、トレーニングセットのモデルがテストセットよりもはるかに優れていることを意味します。それは訓練データをあまりにもよくフィットさせ、悪いことを一般化する。

オーバーフィッティングは、多くの原因があり、通常、次の組み合わせであることができます。

  • あまりにも強力なモデル:例えばあなたはずっと少ない傾向
  • ない十分なデータを過剰適合にあるそれほど強力なモデルを持っているでしょう度5に多項式で度100に多項式を許可する:より多くのデータを取得することは時々あまりにも多くの問題に
  • を過剰適合修正することができますフィーチャー:あなたのモデルは単一のフィーチャーで単一のデータポイントを識別し、単一のデータポイントだけの特別なケースを構築できます。例えば、分類問題と決定木を考えてみましょう。バイナリフィーチャとnポイントを持つフィーチャベクタ(x1、x2、...、xn)があり、各フィーチャベクタがちょうど1の場合、ツリーは単にこれを識別子として使用できます。
0

多くの機能を備えているのは、多くのディメンションを持つようなものです。効果的には、データがより疎であることを意味します。したがって、保証されていない結論を導く可能性がより高くなります。

ルーラーを店で販売しているため、ルーラーの長さを決める必要があるとします。唯一の次元が長さなら、あなたは5,6人の異なるルーラーを作り、売るものを見ることで逃げることができます。

ここで、売る箱のサイズを決めているとします。今、あなたは3次元を持っています。 5つの異なるサイズが単一次元でテストするのに十分であった場合、5×3 = 125の異なるサイズが必要になることがあります。データに20種類のボックスしかない場合、人々が望むサイズについて間違った結論になるかもしれません。

幸いにも、あなたは次元を減らすことができるかもしれません。たとえば、ボックスを横に動かすことができれば(移動ボックスだと思うので、底が落ちないようにする必要があります)、人が気にする2つの次元しかないことがわかります。

0

私たちはn+1に合っており、m個のトレーニング例があるとします。 また、m < n+1(トレーニングデータが少ないことを意味します)としましょう。線形回帰を使ってみましょう。だから我々はm式があると言うことができる。 =>theta0*x0_i + theta1*x1_i ... + thetaN*xN_i = y_i (for i = 1,...m)。 したがって、より多くの変数と少ない方程式があります。したがって、(n + 1-m)変数をゼロに設定し、m個の変数を解くと、誤差がゼロ(最小)になるモデルを作ることができます。したがって、より多くのフィーチャを使用すると、グラデーションの下降またはその他の最適化アルゴリズムを使用すると、関数のクロストを0にすることができます。これは、mの方程式を解くことに相当します。 しかし、m > n+1の場合、mの方程式を完全に満たす変数を見つけることは困難です。 私はそれがあなたの疑いを解消することを願っています。

関連する問題