doc、docx、およびpdfファイルの埋め込みサポート付きのテキストインデクサー（Python用）

私は現在、私のpythonプログラム用のテキストインデクサーを探しています。私は、LuceneプロジェクトであるSolrとPythonにネイティブなWhooshを選びました。私はdoc、docx、pdfファイルのサポートに関する多くのドキュメントを検索し、SolrはTikaパッケージを指し続けました。そのバージョンはSolrと統合されています。doc、docx、およびpdfファイルの埋め込みサポート付きのテキストインデクサー（Python用）

いずれのパッケージにもの3形式の組み込みサポートがある場合、その結果は言及されません。 WhooshとSolrはそれらをサポートしていますか？どの他のオープンソースのインデクサーがこれらの形式をネイティブに読み込みますか？

出典

2011-07-16 aitchnyu

Solr 1.4以降では、WordとPDFファイルを即座にアップロードしてインデックス登録することができます。参照：http://wiki.apache.org/solr/ExtractingRequestHandler

SolrのExtractingRequestHandlerは、ユーザーがSolrのバイナリファイルをアップロードし、Solrには、それをそれからテキストを抽出して、インデックス持つことができるようにティカを使用しています。

出典

2011-07-16 11:12:38 miku

私は、インデックス作成/検索のためだけにSolrを使用して、sqldbにテキストを保存しているので、extractOnly = trueが役に立ちました。 – Jegschemesch

doc、docx、およびpdfファイルの埋め込みサポート付きのテキストインデクサー（Python用）

答えて

関連する問題