2009-04-22 20 views
5

OCRライブラリとJavaを使用してPDFからテキストを抽出しようとした人はいますか?テキスト抽出のための最も信頼性の高いライブラリは何でしたか?私が見たアプローチ(tesseract、GOCR)のほとんどは、いくつかのJNIコードを書く必要があるCライブラリです。PDF OCRを使用したテキスト抽出アプローチ

私はpdfboxをよく知っています。これは現在バージョン0.8.xのApacheインキュベータープロジェクトですが、テキスト抽出は必ずしも正確ではありません。私はもう少し信頼性の高い代替アプローチを探しています。

私はまだAsprise JavaPDFを試していませんが、それを試していますが、可能であればOCRのアプローチについてもっと知りたいと思っていました。

ご協力いただければ幸いです。

+0

構造化PDFを使用していますか?あなたがいるならば、PDFメタデータからテキストを取得するためのJAVAの能力があります。 – northpole

+1

いいえ、すべてのPDFが構造化されているわけではありません。 – Jon

答えて

1

テキストベースのPDFからOCRを抽出する場合は、最初に画像に変換する必要があります。

7

テキストベースのPDFをお持ちの場合は、PDFTextStreamを強くお勧めします。無料ではありませんが、ライセンスは妥当で、PDFBoxよりはるかに優れています。 PDFBoxは新しいツールで生成された多くのPDFファイルを突き詰め、処理できるPDFについて一貫性がありません。 PDFTextStreamは、PDFBoxには埋め込まれていないPNG画像を含むPDFを含む、それにスローするすべてのPDFを処理します。

OCRを追加するためにPDFTextStreamのメンバーを聴くと、彼らは聞くかもしれません。

+0

おかげさまで、価格はあまりにも残念ですが... – Jon

+1

数年後、現在はPDFTextStreamに無料版(1つのトレッドキャップ付き)があります –

+0

PDFが既にテキストベースの場合、なぜOCRについて議論するのですか? PDFBox、iText、PDFTextStreamなどを使ってテキストを解析してください。 OCRは、PDFがイメージである場合、例えばスキャナからの場合です。 PDFがスキャンされた画像の場合、PDFBox、iText、PDFTextStreamのいずれも役に立ちません。 – mmcrae

1

Tesseract-tesjeractまたはTess4JのJavaラッパーを使用してOCRを実行できます。ただし、PDFの場合は、イメージ(PNGまたはTIFF)に変換してからOCRエンジンに供給する必要があります。

VietOCRは、テキスト抽出を実行するためのTesseract実行可能ファイルを呼び出します。 GhostScriptを使用してPDFから画像への変換を行います。

2

ABBYY FineReader Engine 11を使用しています。これらにはJavaラッパーがあります。

長所:

  • これは、すべての言語(英語、ロシア語、ウズベクなど)を備えた素晴らしい作品と現実のOCRを(あなたがOCRなしでPDFファイルを持っている場合でも、彼らは最初とOCRingでレンダリングを行う)こと。

短所:

  • ITコスト。開発者ライセンスとエンドユーザーライセンスを購入する必要があります。

  • そしてそれは非常に遅いです。

+0

製品に関するお返事ありがとうございます。何年もの間、ツールを推薦するように頼んでいる質問は、話題にはならず、回答は「未完了」とみなされます。 (実際にはもう使用されていない場合は削除する必要があります) –

関連する問題