2011-07-16 13 views
1

私は現在、私のpythonプログラム用のテキストインデクサーを探しています。私は、LuceneプロジェクトであるSolrとPythonにネイティブなWhooshを選びました。私はdoc、docx、pdfファイルのサポートに関する多くのドキュメントを検索し、SolrはTikaパッケージを指し続けました。そのバージョンはSolrと統合されています。doc、docx、およびpdfファイルの埋め込みサポート付きのテキストインデクサー(Python用)

いずれのパッケージにもの3形式の組み込みサポートがある場合、その結果は言及されません。 WhooshとSolrはそれらをサポートしていますか?どの他のオープンソースのインデクサーがこれらの形式をネイティブに読み込みますか?

答えて

3

Solr 1.4以降では、WordとPDFファイルを即座にアップロードしてインデックス登録することができます。参照:http://wiki.apache.org/solr/ExtractingRequestHandler

SolrのExtractingRequestHandlerは、ユーザーがSolrのバイナリファイルをアップロードし、Solrには、それをそれからテキストを抽出して、インデックス持つことができるようにティカを使用しています。

+0

私は、インデックス作成/検索のためだけにSolrを使用して、sqldbにテキストを保存しているので、extractOnly = trueが役に立ちました。 – Jegschemesch

関連する問題