文字列から関連性の高いキーワードを効率的に抽出するにはどうすればよいですか?私のキーワードリストはあらかじめ定義されています。たとえば、Michelle Obamaについての記事でも、Barack Obamaについて言及していますが、Michelle Obama
とBarack Obama
というキーワードをキーワードMichelle Obama
(キーワードリストにはMichelle Obama
とBarack Obama
の両方が含まれています)で抽出したいと考えています。効率的なキーワードの検出/抽出。定義済みキーワード
各キーワードの出現回数の文字列を確認することはあまり効率的ではありません。私のアプリケーションはPHPで開発されていますが、これを効率的に行うことができれば、どんな言語でも問題ありません。
私はOpenCalaisを試しましたが、ほとんどのキーワードが検出されていません。 Luceneを使用してキーワードを抽出することは可能ですか?
誰もこの経験がありますか?ありがとう? –