0
のSolrバージョン:: 6.6.1Solrの - PDFファイル
私はインデックスにPDFファイルをSolrのを使用していますが、それは予想 として正常に動作しているためFileListEntityProcessorとデルタのインポートを実現。今私は のPDFファイルのデルタインポートのオプションを実行するための要件があります。最近フォルダに追加されたファイルは、データインポートハンドラの処理中にのみ処理する必要があります。
FileListEntityProcessorでデルタインポートの実装例を見つけることができません。
お勧めします。
data-config.xmlファイルはこのように見えます。
<dataConfig>
<dataSource type="BinFileDataSource"/>
<document>
<entity name="K1FileEntity" processor="FileListEntityProcessor"
dataSource="null"
recursive = "true"
baseDir="\\CLD02\RemoteDepot"
fileName=".*pdf" rootEntity="false">
<field column="file" name="id"/>
<!--<field column="fileAbsolutePath" name="path" />
<field column="fileSize" name="size" />-->
<field column="fileLastModified" name="lastmodified" />
<entity name="pdf" processor="TikaEntityProcessor"
onError="skip"
url="${K1FileEntity.fileAbsolutePath}" format="text">
<field column="title" name="title" meta="true"/>
<field column="dc:format" name="format" meta="true"/>
<field column="text" name="text"/>
</entity>
</entity>
</document>
</dataConfig>
でも、私もその情報をドキュメントでも読んでいます。奇妙なことに、PDFや他のファイルタイプのデルタインポートを実行する方法がないようです。 – Karan
また、newerThan = "'NOW-3DAYS'という名前で、エンティティレベルの別のプロパティを見つけました。デルタインポートを達成するためにこれを利用できますか? – Karan
チェックhttp://lucene.472066.n3.nabble.com/dataimporter-last-index-time-as-an-argument-to-newerThan-in-FileListEntityProcessor-td502311.htmlこれは完全なデルタクエリではないことに注意してください、削除されたファイルはどうですか? – Persimmonium