2011-12-05 10 views
5

私は、主にMS Word、Powerpoint、Excel、PDFなど豊富なドキュメントを束ねて(〜40kアイテム)インポートするプロジェクトでSOLRを使用しています。豊富なドキュメントをインポートするときにSOLR用のベストプラクティスschema.xmlはありますか?

ExtractingRequestHandlerを使用する場合、SOLRで使用するベストプラクティスschema.xmlおよび/またはsolrconfig.xmlはありますか?

デフォルトのスキーマを変更してファセットを取得しようとしていますが、それがなくても、デフォルト出力時のこれらのファイルの良い例が存在すると思いますティカからは十分です。

ベストプラクティスschema.xmlおよび/またはsolrconfig.xmlのようなものがない場合、私はまた、既存のオープンソースプロジェクトや良いブログ記事からも良い例に興味があります。

すべてのポインターをお待ちしています!

答えて

0

訳文テキスト(http://www.manning.com/ingersoll/)には、 ExtractingRequestHandlerへの参照があります。この本は、solr、tika、luceneなどのオープンソースツールを使ってテキストを処理する方法について書かれています。

私は第5章まで読んでいましたが、今までは、フィールドの作成にはschema.xmlファイルを変更し、クエリや索引付けではproseringを使ってsolr機能を拡張する方法について説明しています。

+0

[OK]をクリックします。[OK]をクリックして、ベストプラクティスなどに関する情報を見つけたら、必ず回答を更新してください。ありがとう –

関連する問題