2017-10-05 3 views
0

私はSolr 6.5で作業しています。私が気づいたのは、インデックスファイルのサイズがコンテンツとともに増加し続けていることです。私はストップワードファイルを使用しており、一般的な言葉は索引付けされていません。Solrインデックスファイルでhtmlタグとガベージコンテンツのインデックスを削除する

私は索引に入れたくない多くのHTMLタグを見ています。私は索引付けしたくない内容のコメントだけでなく、索引付けしたくありません。これらを見つけてストップワードtxtを更新するにはどうしたらいいですか?

私は英語のコンテンツのみを索引付けしており、索引ファイルはすでに30GBで、9百万のドキュメントしかありません。

答えて

1

インデックス作成時にすべてのHTMLコンテンツを削除するには、HTMLStripFilterFactoryを使用します。

しかし、30万件のドキュメントの場合は1ドキュメントあたり4kb未満ですが、それほど多くはありません。これらの文書に固有のサイズを持っているため、インデックス作成中はインデックスにデータを追加します。

関連する問題