2017-12-12 9 views
0

のSolrバージョン:: 6.6.1Solrの - PDFファイル

私はインデックスにPDFファイルをSolrのを使用していますが、それは予想 として正常に動作しているためFileListEntityProcessorとデルタのインポートを実現。今私は のPDFファイルのデルタインポートのオプションを実行するための要件が​​あります。最近フォルダに追加されたファイルは、データインポートハンドラの処理中にのみ処理する必要があります。

FileListEntityProcessorでデルタインポートの実装例を見つけることができません。

お勧めします。

data-config.xmlファイルはこのように見えます。

<dataConfig> 
    <dataSource type="BinFileDataSource"/> 
    <document> 
    <entity name="K1FileEntity" processor="FileListEntityProcessor" 
dataSource="null" 
      recursive = "true" 
      baseDir="\\CLD02\RemoteDepot" 
      fileName=".*pdf" rootEntity="false"> 

      <field column="file" name="id"/> 
      <!--<field column="fileAbsolutePath" name="path" /> 
      <field column="fileSize" name="size" />--> 
      <field column="fileLastModified" name="lastmodified" /> 

       <entity name="pdf" processor="TikaEntityProcessor" 
onError="skip" 
         url="${K1FileEntity.fileAbsolutePath}" format="text"> 

       <field column="title" name="title" meta="true"/> 
       <field column="dc:format" name="format" meta="true"/> 
       <field column="text" name="text"/> 

       </entity> 
    </entity> 
    </document> 
</dataConfig> 

答えて

1

としてはin the docs言及:インクリメンタルインポートと変化検出用

デルタインポート

。 SqlEntityProcessorのみがデルタインポートをサポートします。

だから、どちらかに必要があるでしょう:

  • (Solrjを使用して)いくつかのJavaコードでインデックス化への移行と
  • 独自のデルタインポートインフラを転がすかFileListEntityProcessorのすべてのデルタのものを実装する(そして、できればSolrにプッシュする)、SqlEntityProcessorコードをガイドとして使用できます。
+0

でも、私もその情報をドキュメントでも読んでいます。奇妙なことに、PDFや他のファイルタイプのデルタインポートを実行する方法がないようです。 – Karan

+0

また、newerThan = "'NOW-3DAYS'という名前で、エンティティレベルの別のプロパティを見つけました。デルタインポートを達成するためにこれを利用できますか? – Karan

+0

チェックhttp://lucene.472066.n3.nabble.com/dataimporter-last-index-time-as-an-argument-to-newerThan-in-FileListEntityProcessor-td502311.htmlこれは完全なデルタクエリではないことに注意してください、削除されたファイルはどうですか? – Persimmonium

関連する問題