はナイーブベイズテキスト分類は、ベイズ式であることを考えると、実世界のデータ

-1

が必要です。現実の世界では、スパムは約1％です。サンプル入力があると、約1％のスパムが予想されます。はナイーブベイズテキスト分類は、ベイズ式であることを考えると、実世界のデータ

クラシファイアをトレーニングしているときに、迷惑メールが1％しかないドキュメントを使用してトレーニングするか、現実の世界で見つかると予想される迷惑メールの割合が非常に高い分類子を練習しても問題ありません。

私はスパムの非常に大きな割合を持っている場合は、

P(A)

の値が異常に大きいことになるだろうからだ。私は、これを聞いてこれは私のクラシファイアを捨てるでしょうか？この場合、いくつかの "ハム"文書を "スパム"として分類しますか？

出典

2017-11-07 user98651

ベイジアン推定量を学習するには、PDFをP（X | H）とP（X | S）で学習する必要があります。ここで、Xは現在の観測値、Hはスパム/ハムクラスを表します。そのクラスの例から、すなわち、P（X | H）はハムサンプルのみから学習され、P（X | S）はスパムサンプルからのみ学習される。スパムとハムのサンプル数が現実を反映していれば、この点はあまり関係ありません。しかし、後で適切なベイジアン推定を行うには、P（H）とP（S）を推定する必要があり、現実的にスパム/ハムの割合を捕捉する必要があります。

出典

2017-11-07 11:42:12 lukas

はナイーブベイズテキスト分類は、ベイズ式であることを考えると、実世界のデータ

答えて

関連する問題