TIKAを使用してテキストを抽出できません

手書き文書であり、スキャナを使用してpdfに変換されたpdfがあります。私はTIKA 1.13を使用していますが、このようなファイルをテキスト形式で抽出することはできません。解析後、テキストとして「\ n \ n」しか得られません。ここに私のコードです：TIKAを使用してテキストを抽出できません

Parser parser = new AutoDetectParser(); 
ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE); 
PDFParserConfig pdfConfig = new PDFParserConfig(); 
pdfConfig.setExtractInlineImages(true); 
ParseContext parseContext = new ParseContext(); 
parseContext.set(PDFParserConfig.class, pdfConfig); 
parseContext.set(Parser.class, parser); 
Metadata metadata = new Metadata(); 
parser.parse(stream, handler, metadata, parseContext);

誰でも助けてください？

出典

2016-09-16 Shipra Trivedi

'は手書きの文書でpdfに変換されているので、PDFは画像です。 PDFにテキストはありません。 OCRツールを使用して画像をテキストに変換しようとすると、OCRはテキストを抽出できません。 – PeterMmm

TIKAは、基本的にイメージであるそのようなpdfからテキストを抽出するのに役立つことができますか？ –

[OCRサポートを有効にする方法については、Apache Tikaのドキュメントに従ってみてください]（http://wiki.apache.org/tika/TikaOCR）ですか？ – Gagravarr

PDFは2つの基本的な味があります。私が純粋なpdfと呼ぶのは、HTMLタグ、単語マークアップなどと同じ機能を持つマークアップ言語に埋め込まれています。このタイプのpdfからテキストを回復することができます。もう1つのタイプは、ワード文書をpdf形式で保存するときに得られるものです。元のドキュメントの各ページはイメージに変換され、イメージはページングをサポートするpdfフレームワークに埋め込まれます。この時間を抽出すると、一連の画像が得られます。これらは、OCR処理に適している場合とそうでない場合があります。

出典

2017-01-27 14:43:20

TIKAを使用してテキストを抽出できません

答えて

関連する問題