2016-09-27 3 views
0

私はSolr 4.10.4を持っており、xmlファイルのインデックスを作成したいと思います。 Somes xmlタグにはHTMLタグが含まれています。Solrインデックスxmlファイル、htmlタグ付き(DataImportHandler付き)

<?xml version='1.0' encoding='UTF-8' standalone='no' ?> 
<root> 
    <info> 
     <text> 
      <p>text 1</p> 
      <p>text 2</p> 
      <p>text 3</p> 
     </text> 
    </info> 
</root> 

私はこれを使用:

<charFilter class="solr.HTMLStripCharFilterFactory"/> 

をしかし、それは動作しませんし、私が間違っているかわかりません。

M.

+0

** solr.HTMLStripCharFilterFactory **は、インデックス付きデータからhtmlタグを削除します。保存された値も変換しますか? –

答えて

0

HTMLStripCharFilterFactoryはない保存されたから、インデックス付きのデータからHTML田下を取り除くために起こっています。
インデックス作成中にhtmlタグを削除するには、HTMLStripTransformerをdataimporthandlerに使用できます。以下は同じもののサンプルDIHです。

<dataConfig> 
<dataSource name="fDS" type="FileDataSource" /> 
<document> 
    <entity name="tika-test" processor="XPathEntityProcessor" 
      url="${solr.install.dir}/example/exampledocs/content.xml" forEach="/root" dataSource="fDS"> 
      <field column="text" xpath="/root/info/text/p" /> 
    </entity> 
</document> 

HTMLStripTransformerはフィールドを処理したりすべきではない場合、信号にブール値(真/偽)で、この変圧器のための1つの属性、stripHTMLは、あります。

+0

xpathはどうですか? xpath = "/ root/info/text"は正しいですか? – Medley

+0

はいxpathはあなたが言及したものと同じです。 –

+0

Webインターフェイスからクエリを実行すると、フィールドは "\ n"文字でのみ埋められます。 – Medley

関連する問題