2016-09-16 10 views
1

手書き文書であり、スキャナを使用してpdfに変換されたpdfがあります。私はTIKA 1.13を使用していますが、このようなファイルをテキスト形式で抽出することはできません。解析後、テキストとして「\ n \ n」しか得られません。ここに私のコードです:TIKAを使用してテキストを抽出できません

Parser parser = new AutoDetectParser(); 
ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE); 
PDFParserConfig pdfConfig = new PDFParserConfig(); 
pdfConfig.setExtractInlineImages(true); 
ParseContext parseContext = new ParseContext(); 
parseContext.set(PDFParserConfig.class, pdfConfig); 
parseContext.set(Parser.class, parser); 
Metadata metadata = new Metadata(); 
parser.parse(stream, handler, metadata, parseContext); 

誰でも助けてください?

+0

'は手書きの文書でpdfに変換されているので、PDFは画像です。 PDFにテキストはありません。 OCRツールを使用して画像をテキストに変換しようとすると、OCRはテキストを抽出できません。 – PeterMmm

+0

TIKAは、基本的にイメージであるそのようなpdfからテキストを抽出するのに役立つことができますか? –

+1

[OCRサポートを有効にする方法については、Apache Tikaのドキュメントに従ってみてください](http://wiki.apache.org/tika/TikaOCR)ですか? – Gagravarr

答えて

0

PDFは2つの基本的な味があります。私が純粋なpdfと呼ぶのは、HTMLタグ、単語マークアップなどと同じ機能を持つマークアップ言語に埋め込まれています。このタイプのpdfからテキストを回復することができます。 もう1つのタイプは、ワード文書をpdf形式で保存するときに得られるものです。元のドキュメントの各ページはイメージに変換され、イメージはページングをサポートするpdfフレームワークに埋め込まれます。この時間を抽出すると、一連の画像が得られます。これらは、OCR処理に適している場合とそうでない場合があります。

関連する問題