2016-11-28 6 views
0

非常に不均衡な訓練データセットでSGDニューラルネット分類子を訓練しています。不公平なクラスを補うために、ランダムにサンプリングされたs.t.より少ない例を持つクラスがより頻繁に選択されます。訓練用の不均一分布をサンプルします

後者の集合の音量を選ぶ原則と、それが実行されるエポックの数は何ですか?アドバイスを大いに感謝します。

答えて

0

実際のトレーニングをランダムにサンプリングしたセットで実行します。例数の少ないクラスが頻繁に選択される

無作為抽出では、未定義クラスの上位表現が保証されません。名前が示すように、選択はランダムになります。


質問は答えのために広い範囲を持っています。

優れたモデルパフォーマンスを保証しながら、表現力に欠けるクラスから表現を増やす方法はありません。しようとするいくつかの基本的な事柄になり、アンダーサンプリング

  1. 過剰表現のインスタンス一部を削除(あなたは十分なデータが提供される)
  2. サンプリング・オーバー:アンダー表さインスタンス
  3. のコピーを作成します

に訓練するエポックの数にあなたの質問に答えるために:

あなたが上記のいずれかの方法で設定されたバランスの取れたデータを取得したら、あなたをPあたかもそれがバランスのとれたデータセットであるかのように練習しています。


P.S. 斜めのデータセットを扱う唯一の方法ではないことに注意してください。評価指標やさまざまな仮説を試してみるなど、もっと多くの要因が出てきます。

関連する問題