2012-02-01 17 views
4

こんにちは私は、検索可能なPDF(OCR)にtiffイメージを変換できるオープンソースのJava APIを探しています。私は研究しているが、これまで何も見つけ出していない。イメージを検索可能なpdf

NOTE 私はこの記事を見てきましたが、このAPIは、PDF Java OCR implementationに画像を変換しません。しかし、私はまだコードを少し使っています。

答えて

6

iTextを使用して画像をPDFに変換できます。ここで難しいのは、PDFを作成せずにOCRを実行することです。

私はあなたに警告します:使用する価値があるすべてのOCRエンジンは、かなりの金額を要します。無償および/またはオープンソースのものは、一般的にはペットプロジェクトであり、アルゴリズムの概念証明またはその他のものです。実世界のOCRアプリケーションには適していません。 Tesseractはおそらく最高のものですが、商用エンジンよりはるかに悪い精度を持っています。

私は市販のOCRアプリケーションを使用していますが、エンジンを評価している間にこの道を歩いています。あなたは弾丸を噛んでエンジンのプロバイダに連絡して引用符を得ることをお勧めします:Abbyy 、遅く)、Expervision(高速、正確ではない、道路価格の真ん中)、ニュアンス(道路速度の真ん中、正確さと価格)。これらはいずれもJavaで書かれていないので、APIの周りにJNIコードを開発する予定です。

幸運 - 大きなプロジェクトです!

+0

私が望むのは、スキャンされたpdfを取り出し、それを検索可能なテキストのpdfに変換することだけです。 Abbyy、Expervision、そして束はまだまだ正しい道ですか? – mmcrae

+0

はい - 元のコンテンツが保存されていることを確認するために大量の作業が必要です。私たちはこれを行う商用アプリケーションを持っています。私たちは10年の開発期間を持っており、努力が重要であることを保証することができます。 –

+1

:D私の上司はこれが週末に何かすると考えています – mmcrae

2

楔形文字は無料で使いやすく、hocr形式で出力され、ExactImageの一部であるhocr2pdfツールを使用して、PDF上に不可視テキストレイヤーを生成するために使用できます。

+0

あなたのご意見ありがとうございました。あなたは '楔形'と 'hocr'形式の詳細情報を提供できますか?私はそれについて多くの情報を見つけることができないようです。ありがとうございました。 –

関連する問題