私は多くの小文字(約500語と言うことができます)と、約10.000件ずつの2つのデータベース(キーワード)を持っています。小文字での効果的な検索
ここで、すべてのテキストを処理して、どのキーワード(2つのデータベースに保存されているキーワード)がテキストに含まれているかを確認します。
これを効果的に行う方法については、誰かが良いアプローチをしていますか?
データベースを検索する前にすべてのテキストを処理して索引付けしたいと思っていましたが、実際にはそれが正しいツールであるかどうかはわかりません。
私はすでにあなたの最初のアプローチについて思い知らされました。なぜあなたはtermenumをお勧めしますか?私はそれを理解するので、termenumはあなたがテキスト内の特定の用語の頻度を必要とするときに便利です。 – Nicolas
@Nicolas:私はあなたがTermFreqVectorを意味すると思います。 TermEnumは、索引のすべての用語=> RAMDirectoryを使用して索引付けした文書内のすべての用語を提供します。 – csupnig