2011-07-05 18 views
5

いくつかの概念を再確認したいと思います。クラシファイア学習のトレーニングセットについては不明です。私たちのトレーニングデータのレコードを選択すると、クラスに等しい数のレコードを選択してNに合計するか、またはN個のレコードをクラスに関係なくランダムに選択する必要がありますか?naive bayesクラシファイアのトレーニングデータの選択方法

直感的に私は前者を考えていましたが、先のクラスの確率の考えは等しく、本当に役に立たないでしょうか?

答えて

1

推奨アプローチは、学習とテストのデータを取得するためにK-Fold Cross検証を使用することです。ウィキペディアから

引用:

K倍クロスバリデーション

K倍クロスバリデーションにおいて、 元のサンプルは、ランダムにK個のサブサンプルに分割 あります。 K個のサブサンプルのうち、 はモデルをテストするための検証データとして保持され、残りのK -1サブサンプルはトレーニング データとして使用されます。相互認証プロセスは、 であり、K個のサブサンプルのそれぞれが検証データとして として正確に1回使用されて、K回繰り返されている(フォールド) である。 Kは、 を平均して(または別の方法で結合して) にすることができます。この方法の利点は、 ランダムサブサンプリングを繰り返すことであり、すべて の観測値が トレーニングおよび検証に使用され、各 観測値は、正確に の検証に使用されるということです。 10倍のクロスバリデーション が一般的に使用されます。 応答値を意味することは、約 全フォールドに等しくなるように層状K倍クロスバリデーションで

、 折り目が選択されます。 の二分法分類の場合、この は、各折りたたみがおおよそ のクラスラベルの2つのタイプの同じ比率を含むことを意味する。

他の科学データと同等の結果を得るには、常に共通のアプローチをとる必要があります。

7

これはクラスの分布に依存し、決定は手元の問題のドメイン知識でのみ行うことができます。あなたは、次の質問をすることができ :

  • は非常に類似しており、学習者がそれらを区別するために十分な情報を持っていない任意の2つのクラスがありますか?
  • 各クラスの事前確率に大きな違いがありますか?

もしそうなら、たぶんクラスを再配布するべきです。

私の経験では、クラスの再配布には問題ありませんが、必ずしもそうである必要はありません。

本当にあなたのクラスの配布によって異なります。詐欺または侵入検出の場合、予測クラスの分布は1%未満になる可能性があります。 この場合、分類子に各クラス間の相違点を学習させたい場合は、トレーニングセットにクラスを均等に配布する必要があります。それ以外の場合は、99%以上のケースを正しく分類する分類器が作成されます。これは、不正なケースを正しく特定することなく、分類器を作成する全体のポイントです。

均等に分散されたクラスのセットを取得したら、k-foldなどの技術を使用して実際のトレーニングを実行できます。

クラスディストリビューションを調整する必要があるが、必ずしも等しい数のレコードではなく、それぞれの形状からアルファベットの大文字を決定する場合があります。

英語でよく使用されている文字の分布を分類子に訓練すると、文字がある場合はほとんどないでしょう。Q。一方、手紙Oは非常に一般的です。同じ番号のQOを許可するようにクラスを再配布しない場合、分類器にはQを区別するのに十分な情報がありません。 QOが実際には異なる文字であると判断できるように、十分な情報(つまり、より多くのQ秒)をフィードする必要があります。

+0

@fyrによって提供されているように、私は約k倍を読みます。よくわかりません。クラスごとに均等に分散されたトレーニングセットを作成した後、実際のクラス分けのために分類子を訓練するために用意されているセットは何ですか?私の前に私は偶数を信じています:c1:90%、c2:10%のように。 – goh

+1

均等に分散されたクラスを使用して全く新しいデータセットを作成します。この新しいデータを使用して、必要に応じてトレーニング、クロスバル、テストに分割します。 k倍は、データをトレーニングとクロスバランシングに分割する非常に一般的な方法です。 –

1

例の単語の出現を調べることで、サンプルがNSFW(作業には安全でない)かどうかを判断するベイズ分類器の実装を構築しました。 NSFW検出のための分類子を訓練するとき、私は訓練セットの各クラスが同じ数の例を持つように作成しようとしました。これは、クラスの1つが他のクラスよりも多くの例文を持っていることを計画していたのと同様にうまくいっていませんでした。

私はこれらの言葉に基づいてNSFWの可能性を計算していたので、クラスの実際のサイズ(MB)に基づいてバランスを取ったことがわかりました。私は、両方のアプローチ(例の数とクラスのサイズによってバランスを取る)で10倍の折りたたみ検証を試み、データのサイズによるバランスがうまく機能することを発見しました。

関連する問題