Howto：C＃を使用してOCRを使用する前にPDF品質を改善する

スキャンしたファイルのフォルダを監視するサービスを作成しています。ファイルがそこにあると、サービスはそれをピックアップし、それを読み取り可能なPDFに変換します。このプロセスでは、サービスはバーコードも検索します。この後、テキストが抽出され、そのテキストを含むファイルがソフトウェアのデータベースに保存されます。場所はバーコードに基づいています。Howto：C＃を使用してOCRを使用する前にPDF品質を改善する

OCRでは、AtalasoftのSDK（http://www.atalasoft.com/）を使用しています。また、バーコード認識機能もこのSDKに含まれています。

しかし、変換されたテキストにはまだ間違いがあります。（私は他のOCRプログラムでいくつかのテストを行ったが、Atalasoftは素晴らしかった） OCRの目的でPDFの品質を改善できるソフトウェア（SDK-kit）を探しています。

私はKofax VRS Elite（http://www.kofax.com/vrs-virtualrescan/）をテストしました。私は同様のものを探していますが、それは何らかのSDKキットを使ってサービスで実装できます。

これまでにこれをやったことのある人、または同様の問題があった人はいますか？ thxで事前に！

出典

2011-07-06 Anthony Claeys

別のパスを試してみてください。
スキャナーをPDFに直接スキャンし、OCRをオンザフライで実行するように設定できますか。 Lexmarkスキャナでこれを行うことができます。これにより、選択可能で検索可能なテキストを含むPDFが作成されます。これは、PDFリーディングライブラリで抽出することができます。

また、http://www.abbyy.com/をご覧になり、より良い結果が得られるかどうかを確認してください。

これらは適切なオプションでない場合は、体系的に問題を細分することができます。
1.スキャンした画像の画質は問題ありますか？もしそうなら、まずこれを修正する必要があります。 OCRソリューションは、解像度、コントラスト、色の影響を受ける可能性があります。
2. OCRソフトウェアですか？判読性の高い文書を作成し、OCRソフトウェアで間違いがないかどうかを確認します。そうなら、あなたはより良いOCRソフトウェアを見つけなければならないことを知っています。
3.文書の品質が良好で、可読性の高い文書を解読する際にOCRソフトウェアの成功率が高い場合は、うまくいかない例外を見て、ケースバイケースで対応することができます。

ドキュメントの汚れや背景画像が問題の原因である場合は、これを回避する方法や、APIを公開する画像処理ソフトウェアでこれをクリーニングする方法があります。

出典

2011-07-06 09:02:55 Jack

こんにちは、あなたの答えはthx。しかし、他のスキャナを購入するオプションは利用できません。そして、私はabbyyでいくつかのテストを行った、品質はatalasoftのOCRに匹敵する。 Annyの他の提案？ –

Howto：C＃を使用してOCRを使用する前にPDF品質を改善する

答えて

関連する問題