Apache SolrはスキャンされたPDFをインデックスに登録しません

スキャンしたPDFファイルをインデックスします。私はインストール済みですSolr 6.3.0,tesseract 3.04,CentOS 6でleptonica 1.74documentationに従ってsolrconfigを構成しました。Apache SolrはスキャンされたPDFをインデックスに登録しません

私はpng、jpgのためのtesseractとsolrをテストしました。しかし、私がスキャンしたPDFファイルのインデックスを作成しようとすると、Solrはスキャンされたイメージのインデックスを作成せず、pdfコメントメッセージ（sample document）のみを抽出します。（DefaultParserとPDFParserがインデックスレスポンスに従って使用されています）

その後、私はグーグルで問題を発見しましたが、これはsolutionです（テストしましたが、動作します）。しかし、JavaコードをXml構成に変換できませんでした。そのJavaコードをXml構成ファイルにどのように設定する必要がありますか？

助けがあれば助かります。

出典

2017-01-16 Dreamcatcher

Lucene 3.0を使用すると、スキャンしたpdfファイルのインデックスを作成して検索することができます。私はLucene 3.0を使ってインデックスをスキャンしたpdfファイルを検索し、最も頻繁にスキャンされた単語を検索しましたpdf。

出典

2017-03-21 07:10:01 ramya

Apache SolrはスキャンされたPDFをインデックスに登録しません

答えて

関連する問題