PDF OCRを使用したテキスト抽出アプローチ

OCRライブラリとJavaを使用してPDFからテキストを抽出しようとした人はいますか？テキスト抽出のための最も信頼性の高いライブラリは何でしたか？私が見たアプローチ（tesseract、GOCR）のほとんどは、いくつかのJNIコードを書く必要があるCライブラリです。PDF OCRを使用したテキスト抽出アプローチ

私はpdfboxをよく知っています。これは現在バージョン0.8.xのApacheインキュベータープロジェクトですが、テキスト抽出は必ずしも正確ではありません。私はもう少し信頼性の高い代替アプローチを探しています。

私はまだAsprise JavaPDFを試していませんが、それを試していますが、可能であればOCRのアプローチについてもっと知りたいと思っていました。

ご協力いただければ幸いです。

出典

2009-04-22 Jon

構造化PDFを使用していますか？あなたがいるならば、PDFメタデータからテキストを取得するためのJAVAの能力があります。 – northpole

いいえ、すべてのPDFが構造化されているわけではありません。 – Jon

テキストベースのPDFからOCRを抽出する場合は、最初に画像に変換する必要があります。

出典

2009-04-22 16:53:47

テキストベースのPDFをお持ちの場合は、PDFTextStreamを強くお勧めします。無料ではありませんが、ライセンスは妥当で、PDFBoxよりはるかに優れています。 PDFBoxは新しいツールで生成された多くのPDFファイルを突き詰め、処理できるPDFについて一貫性がありません。 PDFTextStreamは、PDFBoxには埋め込まれていないPNG画像を含むPDFを含む、それにスローするすべてのPDFを処理します。

OCRを追加するためにPDFTextStreamのメンバーを聴くと、彼らは聞くかもしれません。

出典

2009-04-22 18:58:28

おかげさまで、価格はあまりにも残念ですが... – Jon

数年後、現在はPDFTextStreamに無料版（1つのトレッドキャップ付き）があります –

PDFが既にテキストベースの場合、なぜOCRについて議論するのですか？ PDFBox、iText、PDFTextStreamなどを使ってテキストを解析してください。 OCRは、PDFがイメージである場合、例えばスキャナからの場合です。 PDFがスキャンされた画像の場合、PDFBox、iText、PDFTextStreamのいずれも役に立ちません。 – mmcrae

Tesseract-tesjeractまたはTess4JのJavaラッパーを使用してOCRを実行できます。ただし、PDFの場合は、イメージ（PNGまたはTIFF）に変換してからOCRエンジンに供給する必要があります。

VietOCRは、テキスト抽出を実行するためのTesseract実行可能ファイルを呼び出します。 GhostScriptを使用してPDFから画像への変換を行います。

出典

2011-05-15 00:43:52 nguyenq

ABBYY FineReader Engine 11を使用しています。これらにはJavaラッパーがあります。

長所：

これは、すべての言語（英語、ロシア語、ウズベクなど）を備えた素晴らしい作品と現実のOCRを（あなたがOCRなしでPDFファイルを持っている場合でも、彼らは最初とOCRingでレンダリングを行う）こと。

短所：

ITコスト。開発者ライセンスとエンドユーザーライセンスを購入する必要があります。
そしてそれは非常に遅いです。

出典

2015-04-08 09:14:15 Andrew

製品に関するお返事ありがとうございます。何年もの間、ツールを推薦するように頼んでいる質問は、話題にはならず、回答は「未完了」とみなされます。（実際にはもう使用されていない場合は削除する必要があります） –

PDF OCRを使用したテキスト抽出アプローチ

答えて

関連する問題