2011-07-27 14 views
3

pythonを使用して文書検索を行いたい。 SolrはJavaのホスティングが制約条件であったため、無駄でした。Whoosh:MS文書、PDFファイルのインデックス作成

だから、whooshは明らかな選択肢のようです。しかし、docやpdfファイルをネイティブに索引付けすることはできないようです(Solrのように)。これらのファイルを直接的に索引付けする方法は何ですか?

答えて

4

Whooshは、これらの文書から抽出されたテキストが必要です。 Whooshライブラリはあなたのためにその抽出を行いませんが、pdf miner、catdoc、またはantiwordのような、あなたのためにテキストを抽出するPythonライブラリがあります。

は、より多くの情報のためにこれら二つの議論を参照してください。

関連する問題