2017-05-18 3 views
0

あなたは図書館員であり、時間がたっている間に は多くの種類のテキストファイルを分類しています(約100) 一般的なあいまいなキーワードです。テキストファイルを2つのグループに分ける - 教師なし学習

すべてのテキストファイルには、実際にkeyword_meaning1 またはkeyword_meaning2の話題のトピックです。

どの教師なし学習アプローチあなたは二つのグループにテキストファイルを分割する 、使うのでしょうか?

正しい分類 の(パーセンテージ)どのような精度は、テキストファイルの数に応じて達成することができますか?

それとも何とか は、彼らが間違ってclassifedすることができる ので、特定のファイルをチェックする司書の必要性があることを、1つのグループに指示することができますか?

答えて

1

最も簡単な出発点は、単純ベイズ分類器を使用することです。予想精度について推測するのは難しいです。あなたはそれを自分でテストしなければなりません。電子メールスパム検出用のプログラムを入手して試してみてください。たとえば、SpamBayes(http://spambayes.sourceforge.net/)は簡単にハック可能な出発点です。 SpamBayesには、2つのクラス間に明確な分離がない場合、メッセージに「不確実」とラベル付けするという素晴らしい機能があります。

編集:あなたは本当に教師なしクラスタリング法をしたい場合は、おそらくCarrot2(http://project.carrot2.org/)のようなものがより適切です。

+0

監修ベイズ法はありませんか?トレーニングフェーズで?またはこれはいくつかの変更ですか? – xralf

+0

はい、監督しています。私は問題文からクラスラベルを利用できることに気づいたので、ナイーブなベイズは最も単純なアプローチに見えました。 – JooMing

+0

carrot2ありがとう。 – xralf

関連する問題