2017-02-10 1 views

答えて

0

Check if a PDF file is a scanned oneの重複がありますか?

かかわらず - ティカの最近のバージョンは、必要に応じてコンテンツの抽出を試みる前Tesseract to OCR画像を使用することができます - あなたはこれを使用して、ドキュメントをあなたは、メタデータを調べることができますティカによって解析された方法を知りたいしている場合:PDFParserはX-Parsed-Byorg.apache.tika.parser.ocr.TesseractOCRParserを追加します通常のorg.apache.tika.parser.pdf.PDFParserに加えてメタデータキーが含まれています。

Tikaを実行する前に独自のOCR処理を実行するかどうかを判断する場合は、PDF(例:pdfimages /その他のコマンドラインツールまたはPDFBoxベースのソリューション)を前処理する必要がありますかテキスト演算子を使用しないフルページの画像(またはページをカバーするより小さな画像)のみが含まれており、OCR処理が必要かどうかを試して分類することも可能です。

関連する問題