Solrインデックスxmlファイル、htmlタグ付き（DataImportHandler付き）

私はSolr 4.10.4を持っており、xmlファイルのインデックスを作成したいと思います。 Somes xmlタグにはHTMLタグが含まれています。Solrインデックスxmlファイル、htmlタグ付き（DataImportHandler付き）

<?xml version='1.0' encoding='UTF-8' standalone='no' ?> 
<root> 
    <info> 
     <text> 
      <p>text 1</p> 
      <p>text 2</p> 
      <p>text 3</p> 
     </text> 
    </info> 
</root>

私はこれを使用：

<charFilter class="solr.HTMLStripCharFilterFactory"/>

をしかし、それは動作しませんし、私が間違っているかわかりません。

出典

2016-09-27 Medley

** solr.HTMLStripCharFilterFactory **は、インデックス付きデータからhtmlタグを削除します。保存された値も変換しますか？ –

HTMLStripCharFilterFactoryはない保存されたから、インデックス付きのデータからHTML田下を取り除くために起こっています。
インデックス作成中にhtmlタグを削除するには、HTMLStripTransformerをdataimporthandlerに使用できます。以下は同じもののサンプルDIHです。

<dataConfig> 
<dataSource name="fDS" type="FileDataSource" /> 
<document> 
    <entity name="tika-test" processor="XPathEntityProcessor" 
      url="${solr.install.dir}/example/exampledocs/content.xml" forEach="/root" dataSource="fDS"> 
      <field column="text" xpath="/root/info/text/p" /> 
    </entity> 
</document>

HTMLStripTransformerはフィールドを処理したりすべきではない場合、信号にブール値（真/偽）で、この変圧器のための1つの属性、stripHTMLは、あります。

出典

2016-09-27 12:47:20

xpathはどうですか？ xpath = "/ root/info/text"は正しいですか？ – Medley

はいxpathはあなたが言及したものと同じです。 –

Webインターフェイスからクエリを実行すると、フィールドは "\ n"文字でのみ埋められます。 – Medley

Solrインデックスxmlファイル、htmlタグ付き（DataImportHandler付き）

答えて

関連する問題