2012-07-31 20 views
6

lrgeトレーニングセットでSVMをトレーニングしていて、クラス変数がTrueまたはFalseの場合、トレーニングセットのFalse値の数と比較してTrue値が非常に少ないとトレーニングモデル/結果に影響しますか?彼らは平等であるべきですか?トレーニングセットにTrueとFalseの均等分布がない場合、トレーニングができるだけ効率的に行われるように、これをどうやって管理しますか?SVMでデータの不均衡をどのように扱いますか?

答えて

3

不均衡なデータを持つのは良いことです。SVMは、同じエラー重みを割り当てるのではなく、そうでないインスタンス(たとえば、あなたのケースでは "True")に関連する誤分類エラーに大きなペナルティを割り当てる必要があるからです。大多数にすべてを割り当てる望ましくない分類器。しかし、はおそらくとなり、バランスの取れたデータでより良い結果が得られます。それはすべてあなたのデータに依存します。

よりバランスのとれたデータを得るために、データを人為的に歪ませることができます。このペーパーをチェックしてみてください:http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF

2

私の経験では、標準的なSVM分類器は不均衡なデータに対してうまく機能しません。私はC-SVMでそれに遭遇し、それはnu-SVMにとってさらに悪いことです。多分アンバランスなデータに適したモードを提供するP-SVMを見たいかもしれません。

関連する問題