非常に不均衡な訓練データセットでSGDニューラルネット分類子を訓練しています。不公平なクラスを補うために、ランダムにサンプリングされたs.t.より少ない例を持つクラスがより頻繁に選択されます。訓練用の不均一分布をサンプルします
後者の集合の音量を選ぶ原則と、それが実行されるエポックの数は何ですか?アドバイスを大いに感謝します。
非常に不均衡な訓練データセットでSGDニューラルネット分類子を訓練しています。不公平なクラスを補うために、ランダムにサンプリングされたs.t.より少ない例を持つクラスがより頻繁に選択されます。訓練用の不均一分布をサンプルします
後者の集合の音量を選ぶ原則と、それが実行されるエポックの数は何ですか?アドバイスを大いに感謝します。
実際のトレーニングをランダムにサンプリングしたセットで実行します。例数の少ないクラスが頻繁に選択される
無作為抽出では、未定義クラスの上位表現が保証されません。名前が示すように、選択はランダムになります。
質問は答えのために広い範囲を持っています。
優れたモデルパフォーマンスを保証しながら、表現力に欠けるクラスから表現を増やす方法はありません。しようとするいくつかの基本的な事柄になり、アンダーサンプリング
に訓練するエポックの数にあなたの質問に答えるために:
あなたが上記のいずれかの方法で設定されたバランスの取れたデータを取得したら、あなたをPあたかもそれがバランスのとれたデータセットであるかのように練習しています。
P.S. 斜めのデータセットを扱う唯一の方法ではないことに注意してください。評価指標やさまざまな仮説を試してみるなど、もっと多くの要因が出てきます。