テキストファイルを2つのグループに分ける - 教師なし学習

あなたは図書館員であり、時間がたっている間には多くの種類のテキストファイルを分類しています（約100）一般的なあいまいなキーワードです。テキストファイルを2つのグループに分ける - 教師なし学習

すべてのテキストファイルには、実際にkeyword_meaning1 またはkeyword_meaning2の話題のトピックです。

どの教師なし学習アプローチあなたは二つのグループにテキストファイルを分割する、使うのでしょうか？

正しい分類の（パーセンテージ）どのような精度は、テキストファイルの数に応じて達成することができますか？

それとも何とかは、彼らが間違ってclassifedすることができるので、特定のファイルをチェックする司書の必要性があることを、1つのグループに指示することができますか？

2017-05-18 xralf

最も簡単な出発点は、単純ベイズ分類器を使用することです。予想精度について推測するのは難しいです。あなたはそれを自分でテストしなければなりません。電子メールスパム検出用のプログラムを入手して試してみてください。たとえば、SpamBayes（http://spambayes.sourceforge.net/）は簡単にハック可能な出発点です。 SpamBayesには、2つのクラス間に明確な分離がない場合、メッセージに「不確実」とラベル付けするという素晴らしい機能があります。

編集：あなたは本当に教師なしクラスタリング法をしたい場合は、おそらくCarrot2（http://project.carrot2.org/）のようなものがより適切です。

出典

2017-05-18 18:58:18 JooMing

監修ベイズ法はありませんか？トレーニングフェーズで？またはこれはいくつかの変更ですか？ – xralf

はい、監督しています。私は問題文からクラスラベルを利用できることに気づいたので、ナイーブなベイズは最も単純なアプローチに見えました。 – JooMing

carrot2ありがとう。 – xralf

テキストファイルを2つのグループに分ける - 教師なし学習

答えて

関連する問題