2016-09-29 15 views
2

pdfにはスキャンした画像が含まれており、そこからテキストを抽出します。TesseractOCRConfig Apache Tikaを使用してスキャンしたpdfを抽出できません

私が試したこと:AutoDetectParserを試してみましたが、出力はありませんでした。

私はApache Tika extract scanned PDF filesで提供されているソリューションに続き、Apache Tika Jiraもhttps://issues.apache.org/jira/browse/TIKA-1729でエラーを起こさずに空の文字列を取得しました。

設定:Win 7 64ビットOS、JDK 1.8.0_45。

どのようなヘルプも歓迎します。これを解決するために従うこと

+0

Tesseractがインストールされていて、あなたの設定で指定された場所にありますか? [Tikaトラブルシューティングガイド](http://wiki.apache.org/tika/Troubleshooting%20Tika)に従ってみましたか? – Gagravarr

+0

@Gagravarr私はTesseractを含むすべてのjarをインストールするためにmavenを使用しています。 _No Content Extracted problem_のトラブルシューティングガイドを見てきました。 Apache-tika-app.jarの最新バージョン(1.13)を使用し、抽出を確認するためにGUIを使用しようとしましたが、出力は試していませんでした。 – Rana

+0

TesseractはJavaライブラリではないため、Mavenは役に立ちません。ご使用のオペレーティングシステム用のネイティブプログラムをダウンロードしてインストールする必要があります – Gagravarr

答えて

6

ステップ:

  1. からWindows用の 'たTesseract-OCR-セットアップ-3.05.00dev.exe' を使用してシステムでたTesseractをインストールします。https://sourceforge.net/projects/tesseract-ocr-alt/files/とあなたの設定でその場所を設定。

    Javaコード:

    Parser parser = new AutoDetectParser(); 
    BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE); 
    TesseractOCRConfig config = new TesseractOCRConfig(); 
    config.setTesseractPath(tPath); 
    PDFParserConfig pdfConfig = new PDFParserConfig(); 
    pdfConfig.setExtractInlineImages(true); 
    pdfConfig.setExtractUniqueInlineImagesOnly(false); // set to false if pdf contains multiple images. 
    ParseContext parseContext = new ParseContext(); 
    parseContext.set(TesseractOCRConfig.class, config); 
    parseContext.set(PDFParserConfig.class, pdfConfig); 
    //need to add this to make sure recursive parsing happens! 
    parseContext.set(Parser.class, parser); 
    
  2. Mavenの依存関係:

<dependencies> <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-parsers</artifactId> <version>1.13</version> </dependency> <dependency> <groupId>com.levigo.jbig2</groupId> <artifactId>levigo-jbig2-imageio</artifactId> <version>1.6.5</version> </dependency> <dependency> <groupId>com.github.jai-imageio</groupId> <artifactId>jai-imageio-core</artifactId> <version>1.3.1</version> </dependency> </dependencies>

私はそれが役に立つかもしれないと思います。ありがとう。

+0

ありがとうございます。 levigoとjaiを使用することによるライセンスの影響に注意してください。 Apache 2.0と互換性があれば、それらを埋め込んだでしょう。 –

関連する問題