TesseractOCRConfig Apache Tikaを使用してスキャンしたpdfを抽出できません

pdfにはスキャンした画像が含まれており、そこからテキストを抽出します。TesseractOCRConfig Apache Tikaを使用してスキャンしたpdfを抽出できません

私が試したこと：AutoDetectParserを試してみましたが、出力はありませんでした。

私はApache Tika extract scanned PDF filesで提供されているソリューションに続き、Apache Tika Jiraもhttps://issues.apache.org/jira/browse/TIKA-1729でエラーを起こさずに空の文字列を取得しました。

設定：Win 7 64ビットOS、JDK 1.8.0_45。

どのようなヘルプも歓迎します。これを解決するために従うこと

出典

2016-09-29 Rana

Tesseractがインストールされていて、あなたの設定で指定された場所にありますか？ [Tikaトラブルシューティングガイド]（http://wiki.apache.org/tika/Troubleshooting%20Tika）に従ってみましたか？ – Gagravarr

@Gagravarr私はTesseractを含むすべてのjarをインストールするためにmavenを使用しています。 _No Content Extracted problem_のトラブルシューティングガイドを見てきました。 Apache-tika-app.jarの最新バージョン（1.13）を使用し、抽出を確認するためにGUIを使用しようとしましたが、出力は試していませんでした。 – Rana

TesseractはJavaライブラリではないため、Mavenは役に立ちません。ご使用のオペレーティングシステム用のネイティブプログラムをダウンロードしてインストールする必要があります – Gagravarr

ステップ：

からWindows用の 'たTesseract-OCR-セットアップ-3.05.00dev.exe' を使用してシステムでたTesseractをインストールします。https://sourceforge.net/projects/tesseract-ocr-alt/files/とあなたの設定でその場所を設定。

Javaコード：

Parser parser = new AutoDetectParser(); 
BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE); 
TesseractOCRConfig config = new TesseractOCRConfig(); 
config.setTesseractPath(tPath); 
PDFParserConfig pdfConfig = new PDFParserConfig(); 
pdfConfig.setExtractInlineImages(true); 
pdfConfig.setExtractUniqueInlineImagesOnly(false); // set to false if pdf contains multiple images. 
ParseContext parseContext = new ParseContext(); 
parseContext.set(TesseractOCRConfig.class, config); 
parseContext.set(PDFParserConfig.class, pdfConfig); 
//need to add this to make sure recursive parsing happens! 
parseContext.set(Parser.class, parser);

Mavenの依存関係：

<dependencies> <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-parsers</artifactId> <version>1.13</version> </dependency> <dependency> <groupId>com.levigo.jbig2</groupId> <artifactId>levigo-jbig2-imageio</artifactId> <version>1.6.5</version> </dependency> <dependency> <groupId>com.github.jai-imageio</groupId> <artifactId>jai-imageio-core</artifactId> <version>1.3.1</version> </dependency> </dependencies>

私はそれが役に立つかもしれないと思います。ありがとう。

出典

2016-09-30 13:09:20 Rana

ありがとうございます。 levigoとjaiを使用することによるライセンスの影響に注意してください。 Apache 2.0と互換性があれば、それらを埋め込んだでしょう。 –

TesseractOCRConfig Apache Tikaを使用してスキャンしたpdfを抽出できません

答えて

関連する問題