2017-01-16 26 views
0

スキャンしたPDFファイルをインデックスします。私はインストール済みですSolr 6.3.0,tesseract 3.04,CentOS 6でleptonica 1.74documentationに従ってsolrconfigを構成しました。Apache SolrはスキャンされたPDFをインデックスに登録しません

私はpng、jpgのためのtesseractとsolrをテストしました。しかし、私がスキャンしたPDFファイルのインデックスを作成しようとすると、Solrはスキャンされたイメージのインデックスを作成せず、pdfコメントメッセージ(sample document)のみを抽出します。 (DefaultParserとPDFParserがインデックスレスポンスに従って使用されています)

その後、私はグーグルで問題を発見しましたが、これはsolutionです(テストしましたが、動作します)。しかし、JavaコードをXml構成に変換できませんでした。そのJavaコードをXml構成ファイルにどのように設定する必要がありますか?

助けがあれば助かります。

答えて

0

Lucene 3.0を使用すると、スキャンしたpdfファイルのインデックスを作成して検索することができます。私はLucene 3.0を使ってインデックスをスキャンしたpdfファイルを検索し、最も頻繁にスキャンされた単語を検索しましたpdf

関連する問題