スキャンしたPDFファイルをインデックスします。私はインストール済みですSolr 6.3.0,tesseract 3.04,CentOS 6でleptonica 1.74documentationに従ってsolrconfigを構成しました。Apache SolrはスキャンされたPDFをインデックスに登録しません
私はpng、jpgのためのtesseractとsolrをテストしました。しかし、私がスキャンしたPDFファイルのインデックスを作成しようとすると、Solrはスキャンされたイメージのインデックスを作成せず、pdfコメントメッセージ(sample document)のみを抽出します。 (DefaultParserとPDFParserがインデックスレスポンスに従って使用されています)
その後、私はグーグルで問題を発見しましたが、これはsolutionです(テストしましたが、動作します)。しかし、JavaコードをXml構成に変換できませんでした。そのJavaコードをXml構成ファイルにどのように設定する必要がありますか?
助けがあれば助かります。