2
私はLucene 3.2と協力しています。用語をフィルタリング/変更するだけでなく、他の用語をストリームに挿入できるTokenFilterを使用するにはどうすればよいですか?LuceneではTokenFilterはどのように複数の用語を出力できますか?
たとえば、入力として「tv42lcd」を取り、ストリームに「tv42lcd」、「tv」、「42」、「lcd」という単語を挿入するフィルタが必要です。
私は自分のTokenizerを実装することでこれを行うことができることを知っています。しかし、私はまだ提供されているStandardTokenizerを使用しています。
トークナイザはどのように用語を分割するかを知っていますか?例えばなぜ "tv42lcd"、 "tv"、 "42"、 "lc"、 "d"、 "tv4"、 "2l"、 "cd"ではないのですか? –
これは単なる例です。しかし、私のアプリケーションでは、数値文字に基づいて分割しました。 –