Apache LuceneはStopAnalyzerとStopFilterを使用してもストップワードをフィルタリングしません

キーワードを取得するApache Lucene 5.5/6.0に基づくモジュールがあります。 1つのこと以外はすべて正常に動作しています - Luceneはストップワードをフィルタリングしません。Apache LuceneはStopAnalyzerとStopFilterを使用してもストップワードをフィルタリングしません

私は2つの異なるアプローチでストップワードフィルタリングを有効にしようとしました。

アプローチ＃1：

tokenStream = new StopFilter(new ASCIIFoldingFilter(new ClassicFilter(new LowerCaseFilter(stdToken))), EnglishAnalyzer.getDefaultStopSet()); 
tokenStream.reset();

アプローチ＃2：

tokenStream = new StopFilter(new ClassicFilter(new LowerCaseFilter(stdToken)), StopAnalyzer.ENGLISH_STOP_WORDS_SET); 
tokenStream.reset();

完全なコードはここにあります：
https://stackoverflow.com/a/36237769/462347

私の質問：

なぜLuceneはストップワードをフィルタリングしないのですか？
Lucene 5.5/6.0でストップワードフィルタリングを有効にするにはどうすればよいですか？

出典

2016-03-26 Mike B.

問題は、デフォルトのLuceneのストップワードリストがはるかに幅広くなることを期待していたことでした。ここで

は、デフォルトではカスタマイズされたストップワードリストをロードしようとするコードであり、それが失敗したなら、標準のいずれかを使用します。

CharArraySet stopWordsSet; 

try { 
    // use customized stop words list 
    String stopWordsDictionary = FileUtils.readFileToString(new File(%PATH_TO_FILE%)); 
    stopWordsSet = WordlistLoader.getWordSet(new StringReader(stopWordsDictionary)); 
} catch (FileNotFoundException e) { 
    // use standard stop words list 
    stopWordsSet = CharArraySet.copy(StandardAnalyzer.STOP_WORDS_SET); 
} 

tokenStream = new StopFilter(new ASCIIFoldingFilter(new ClassicFilter(new LowerCaseFilter(stdToken))), stopWordsSet); 
tokenStream.reset();

出典

2016-03-27 10:02:27

どちらもアプローチ1とアプローチ2の両方でテストされていますが、どちらもストップワードをうまく除外しているようです。ここで私はそれをテストする方法です：

public static void main(String[] args) throws IOException, ParseException, org.apache.lucene.queryparser.surround.parser.ParseException 
{ 
    StandardTokenizer stdToken = new StandardTokenizer(); 
    stdToken.setReader(new StringReader("Some stuff that is in need of analysis")); 
    TokenStream tokenStream; 

    //You're code starts here 
    tokenStream = new StopFilter(new ASCIIFoldingFilter(new ClassicFilter(new LowerCaseFilter(stdToken))), EnglishAnalyzer.getDefaultStopSet()); 
    tokenStream.reset(); 
    //And ends here 

    CharTermAttribute token = tokenStream.getAttribute(CharTermAttribute.class); 
    while (tokenStream.incrementToken()) { 
     System.out.println(token.toString()); 
    } 
    tokenStream.close(); 
}

結果：

一部
もの
必要
分析私のサンプルの4つのストップワードを排除してい

。

出典

2016-03-27 04:33:47 femtoRgon

問題はLucene'は、このような言葉を除外していない 'ということです「私」、および他の一般的な英語の単語。他の拡張ストップワード辞書を付けるべきですか？ 'Lucene'は他のストップワード辞書を提供していますか？ –

'EnglishAnalyzer'と' StandardAnalyzer'は同じストップワードセットを使用していますので、luceneにパッケージされたより広範なストップリストがあるとは思われません。だから、おそらくあなたは自分自身を作成する必要があります。 StandardAnalyzerを使用している場合は、ストップワードをプレーンテキストファイルに格納し、リーダーをコンストラクタに渡すのが簡単です。 – femtoRgon

「StandardAnalyzer」または「StandardTokenizer」を意味しますか？ 'StandardAnalyzer.STOP_WORDS_SET'を使用しますが、' StandardAnalyzer'のコンストラクタは使用されていません。これに対して、私は 'stdToken.setReader（new StringReader（fullText））;'を持っています。どこに私のストップワードリストを置くべきですか？ –

Apache LuceneはStopAnalyzerとStopFilterを使用してもストップワードをフィルタリングしません

答えて

関連する問題