2011-02-01 17 views
3

文字列から関連性の高いキーワードを効率的に抽出するにはどうすればよいですか?私のキーワードリストはあらかじめ定義されています。たとえば、Michelle Obamaについての記事でも、Barack Obamaについて言及していますが、Michelle ObamaBarack ObamaというキーワードをキーワードMichelle Obama(キーワードリストにはMichelle ObamaBarack Obamaの両方が含まれています)で抽出したいと考えています。効率的なキーワードの検出/抽出。定義済みキーワード

各キーワードの出現回数の文字列を確認することはあまり効率的ではありません。私のアプリケーションはPHPで開発されていますが、これを効率的に行うことができれば、どんな言語でも問題ありません。

私はOpenCalaisを試しましたが、ほとんどのキーワードが検出されていません。 Luceneを使用してキーワードを抽出することは可能ですか?

+0

誰もこの経験がありますか?ありがとう? –

答えて

1

Apache luceneパッケージがあなたに合っています。しかし、あなたがタイトルと段落を持っているならば、ストップワードを除外し、タイトル内の単語のランクを上げ、段落内のそれらのフォームにマッチさせることができます。

関連する問題