ステップ:
からWindows用の 'たTesseract-OCR-セットアップ-3.05.00dev.exe' を使用してシステムでたTesseractをインストールします。https://sourceforge.net/projects/tesseract-ocr-alt/files/とあなたの設定でその場所を設定。
Javaコード:
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
TesseractOCRConfig config = new TesseractOCRConfig();
config.setTesseractPath(tPath);
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);
pdfConfig.setExtractUniqueInlineImagesOnly(false); // set to false if pdf contains multiple images.
ParseContext parseContext = new ParseContext();
parseContext.set(TesseractOCRConfig.class, config);
parseContext.set(PDFParserConfig.class, pdfConfig);
//need to add this to make sure recursive parsing happens!
parseContext.set(Parser.class, parser);
Mavenの依存関係:
<dependencies> <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-parsers</artifactId> <version>1.13</version> </dependency> <dependency> <groupId>com.levigo.jbig2</groupId> <artifactId>levigo-jbig2-imageio</artifactId> <version>1.6.5</version> </dependency> <dependency> <groupId>com.github.jai-imageio</groupId> <artifactId>jai-imageio-core</artifactId> <version>1.3.1</version> </dependency> </dependencies>
私はそれが役に立つかもしれないと思います。ありがとう。
Tesseractがインストールされていて、あなたの設定で指定された場所にありますか? [Tikaトラブルシューティングガイド](http://wiki.apache.org/tika/Troubleshooting%20Tika)に従ってみましたか? – Gagravarr
@Gagravarr私はTesseractを含むすべてのjarをインストールするためにmavenを使用しています。 _No Content Extracted problem_のトラブルシューティングガイドを見てきました。 Apache-tika-app.jarの最新バージョン(1.13)を使用し、抽出を確認するためにGUIを使用しようとしましたが、出力は試していませんでした。 – Rana
TesseractはJavaライブラリではないため、Mavenは役に立ちません。ご使用のオペレーティングシステム用のネイティブプログラムをダウンロードしてインストールする必要があります – Gagravarr