lrgeトレーニングセットでSVMをトレーニングしていて、クラス変数がTrueまたはFalseの場合、トレーニングセットのFalse値の数と比較してTrue値が非常に少ないとトレーニングモデル/結果に影響しますか?彼らは平等であるべきですか?トレーニングセットにTrueとFalseの均等分布がない場合、トレーニングができるだけ効率的に行われるように、これをどうやって管理しますか?SVMでデータの不均衡をどのように扱いますか?
6
A
答えて
3
不均衡なデータを持つのは良いことです。SVMは、同じエラー重みを割り当てるのではなく、そうでないインスタンス(たとえば、あなたのケースでは "True")に関連する誤分類エラーに大きなペナルティを割り当てる必要があるからです。大多数にすべてを割り当てる望ましくない分類器。しかし、はおそらくとなり、バランスの取れたデータでより良い結果が得られます。それはすべてあなたのデータに依存します。
よりバランスのとれたデータを得るために、データを人為的に歪ませることができます。このペーパーをチェックしてみてください:http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF
2
私の経験では、標準的なSVM分類器は不均衡なデータに対してうまく機能しません。私はC-SVMでそれに遭遇し、それはnu-SVMにとってさらに悪いことです。多分アンバランスなデータに適したモードを提供するP-SVMを見たいかもしれません。
関連する問題
- 1. ()の不均衡
- 2. SKlearn SVM不平衡データ付きRBF
- 3. クロスバリデーションのための不均衡なデータのscikit-learnアンダーサンプリング
- 4. ウィンドウに不均衡なユーティリティがありますか?
- 5. クラスが不均衡なsklearnロジスティック回帰
- 6. クラスの不均衡が大きいデータを使用して機械学習アルゴリズムを教える方法はありますか? (SVM)
- 7. レガシーコード(およびデータ)をどのように扱いますか?
- 8. パッケージ内のRデータをどのように扱いますか?
- 9. データフレームはどのようにデータ型を扱いますか?
- 10. fetchxmlの結果データはどのように扱いますか?
- 11. 不正な形式のHTMLをPerlでどのように扱いますか?
- 12. 出現の開始/終了の不均衡な呼び出し
- 13. 不平衡データ用の設計行列
- 14. Mysqlなどのデータを扱うにはどうすればいいですか?
- 15. ASP.NET MVCでマルチパートフォームをどのように扱いますか?
- 16. Pythonゲームでどのように補間を扱いますか?
- 17. AES/GCMはブロックサイズより小さいデータをどう扱うのですか?
- 18. バックボーン? Can.js?ゲットーDIY?このデータをどのように扱うべきですか?
- 19. デザインの変更をどのように扱いますか?
- 20. Facebookはテキストのオーバーフローをどのように扱いますか?
- 21. jqueryはjsオブジェクトをどのように扱いますか
- 22. Django FixturesはManyToManyFieldsをどのように扱いますか?
- 23. Pythonはどのようにメモリを扱いますか?
- 24. SmalltalkはどのようにMonkeypatchingを扱いますか?
- 25. UIManagedDocumentをどのように扱いますか?
- 26. コマンドラインオプションと設定ファイルをどのように扱いますか?
- 27. cronは "day"フィールドをどのように扱いますか?
- 28. Cはバッファオーバーフローをどのように扱いますか?
- 29. PerlはPHPとセッションをどのように扱いますか?
- 30. node.jsは認証/ユーザシステムをどのように扱いますか?