でフォルダ内のすべてのファイルは、私はSolrの中にフォルダをインデックストラブルインデックスSolrの
例-データ-config.xmlのを持っています:
<dataConfig>
<dataSource type="BinFileDataSource" />
<document>
<entity name="files"
dataSource="null"
rootEntity="false"
processor="FileListEntityProcessor"
baseDir="C:\Temp\" fileName=".*"
recursive="true"
onError="skip">
<field column="fileAbsolutePath" name="id" />
<field column="fileSize" name="size" />
<field column="fileLastModified" name="lastModified" />
<entity
name="documentImport"
processor="TikaEntityProcessor"
url="${files.fileAbsolutePath}"
format="text">
<field column="file" name="fileName"/>
<field column="Author" name="author" meta="true"/>
<field column="text" name="text"/>
</entity>
</entity>
</document>
その後、私はのschema.xmlを作成します:
最後に、solrConfig.xmlファイルを変更して、requesthandlerとdataImportHandlerとdataImportを追加しました。ハンドラ-余分なjarファイル:
<requestHandler name="/dataimport" class="solr.DataImportHandler">
<lst name="defaults">
<str name="config">example-data-config.xml</str>
</lst>
</requestHandler>
私はそれを実行し、結果は次のとおりです。
そのフォルダ内には、.wsdlファイル、diferent形式で20.000ファイル(の.py、.javaファイルなどがあります等)
何か提案がありがとうございます。ありがとう:)
再帰的= "true"は何らかの形で動作していないようですが、私はサブフォルダを試してみましたが、サブフォルダの情報は適切にインデックスされています。しかし、私が実際にこの時点で知りません根本的な原因 – user1848435