2009-07-01 17 views
4

大量のテキストデータをインポートして分類する方法を探しているクライアントがあります。このデータを分類する必要があり、これを行う最も簡単な方法は、説明フィールドを見てそこに保持されている単語を一致させて、その特定のレコードに対してカテゴリを導出できるかどうかを調べることです。シノニムスタイルのテキストの参照と解析

これを行う最良の方法は、単語を各カテゴリに対して保持されているキーワードに一致させることであり、それが失敗した場合は、何らかの同義語を使用してこれを代わりに使用できるかどうかを調べることです。たとえば、特定のレコードに「自動車」という単語が含まれていた場合、同義語検索はその単語をカテゴリ「車両」に対して保持される単語「car」に一致させることができます。

誰かが特定の単語の同義語を見つけるために辞書を検索するWebサービスやその他の手段を知っていますか?プロジェクトマネージャーは、このためにGoogle Enterprise Searchのライセンスを購入することを提案しましたが、私が作ることができるものは、これらのユーザーが探しているものを提供していません。

クライアントが探しているものを取得するという提案は、喜んで受け入れられます。


ありがとう!私はWordnetを調べます。

他の種類のテキスト分類ソフトウェア製品がありますか。私はこれにBayasianアルゴリズムを使用する議論があることを知っていますが、実際の例を見ることはできません。

答えて

6

最初に気になるのはWordnetです。ワードネットは、人間が生成した単語や関連語のデータベースであり、同義語を含みます。 The Wikipedia Wordnet entryには、Wordnetへのインタフェースがいくつか記載されています。私はそれらのいくつかがWebサービスだと考えています。 自分でロールすることもできます。 Manning and Schutze's chapter 5 (free PDF)はこれを行う方法を示しています。

あなたは正しい問題を解決していますか?どのようにカテゴリリストを作成しますか? 階層ですか?タグクラウド?階層的なカテゴリの批判については、Clay Shirky's Ontology is Overratedを参照してください。私は、あなたが単一の単語ではなく、単語のセット(Naive Bayesなど)に基づいて分類する場合、同義語はそれほど重要ではないと信じています。

1

WordNetを使用してください。あなたは彼らのウェブサイトhttp://wordnet.princeton.edu/にアクセスして詳細を知ることができますが、多くの言語でそれらを統合するためのライブラリがあります。

実際の使用方法をオンラインで確認するには、http://wordnetweb.princeton.edu/perl/webwnをご覧ください。単語を検索し、各定義の横にある "S"をクリックすると、その定義に意味的に関連する単語のリストが表示されます。

「ドキュメントクラスタリング」を実行できるソフトウェアもチェックしておくべきだと思います。ここに例があります:http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview。カテゴリ作成プロセスのブートストラップに役立ちます。

私はこれがあなたが望むものに向かって長い道のりを得るのに役立つと思います!

0

テキスト分類の場合は、Apache Mahoutをご覧ください。