SVMでデータの不均衡をどのように扱いますか？

lrgeトレーニングセットでSVMをトレーニングしていて、クラス変数がTrueまたはFalseの場合、トレーニングセットのFalse値の数と比較してTrue値が非常に少ないとトレーニングモデル/結果に影響しますか？彼らは平等であるべきですか？トレーニングセットにTrueとFalseの均等分布がない場合、トレーニングができるだけ効率的に行われるように、これをどうやって管理しますか？SVMでデータの不均衡をどのように扱いますか？

出典

2012-07-31 London guy

不均衡なデータを持つのは良いことです。SVMは、同じエラー重みを割り当てるのではなく、そうでないインスタンス（たとえば、あなたのケースでは "True"）に関連する誤分類エラーに大きなペナルティを割り当てる必要があるからです。大多数にすべてを割り当てる望ましくない分類器。しかし、はおそらくとなり、バランスの取れたデータでより良い結果が得られます。それはすべてあなたのデータに依存します。

よりバランスのとれたデータを得るために、データを人為的に歪ませることができます。このペーパーをチェックしてみてください：http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF

出典

2012-08-01 01:10:04 TakeS

私の経験では、標準的なSVM分類器は不均衡なデータに対してうまく機能しません。私はC-SVMでそれに遭遇し、それはnu-SVMにとってさらに悪いことです。多分アンバランスなデータに適したモードを提供するP-SVMを見たいかもしれません。

出典

2014-02-21 22:00:39 UBod

SVMでデータの不均衡をどのように扱いますか？

答えて

関連する問題