2011-07-06 8 views
5

スキャンしたファイルのフォルダを監視するサービスを作成しています。ファイルがそこにあると、サービスはそれをピックアップし、それを読み取り可能なPDFに変換します。このプロセスでは、サービスはバーコードも検索します。この後、テキストが抽出され、そのテキストを含むファイルがソフトウェアのデータベースに保存されます。場所はバーコードに基づいています。Howto:C#を使用してOCRを使用する前にPDF品質を改善する

OCRでは、AtalasoftのSDK(http://www.atalasoft.com/)を使用しています。 また、バーコード認識機能もこのSDKに含まれています。

しかし、変換されたテキストにはまだ間違いがあります。 (私は他のOCRプログラムでいくつかのテストを行ったが、Atalasoftは素晴らしかった) OCRの目的でPDFの品質を改善できるソフトウェア(SDK-kit)を探しています。

私はKofax VRS Elite(http://www.kofax.com/vrs-virtualrescan/)をテストしました。私は同様のものを探していますが、それは何らかのSDKキットを使ってサービスで実装できます。

これまでにこれをやったことのある人、または同様の問題があった人はいますか? thxで事前に!

答えて

2

別のパスを試してみてください。
スキャナーをPDFに直接スキャンし、OCRをオンザフライで実行するように設定できますか。 Lexmarkスキャナでこれを行うことができます。これにより、選択可能で検索可能なテキストを含むPDFが作成されます。これは、PDFリーディングライブラリで抽出することができます。

また、http://www.abbyy.com/をご覧になり、より良い結果が得られるかどうかを確認してください。

これらは適切なオプションでない場合は、体系的に問題を細分することができます。
1.スキャンした画像の画質は問題ありますか?もしそうなら、まずこれを修正する必要があります。 OCRソリューションは、解像度、コントラスト、色の影響を受ける可能性があります。
2. OCRソフトウェアですか?判読性の高い文書を作成し、OCRソフトウェアで間違いがないかどうかを確認します。そうなら、あなたはより良いOCRソフトウェアを見つけなければならないことを知っています。
3.文書の品質が良好で、可読性の高い文書を解読する際にOCRソフトウェアの成功率が高い場合は、うまくいかない例外を見て、ケースバイケースで対応することができます。

ドキュメントの汚れや背景画像が問題の原因である場合は、これを回避する方法や、APIを公開する画像処理ソフトウェアでこれをクリーニングする方法があります。

+1

こんにちは、あなたの答えはthx。しかし、他のスキャナを購入するオプションは利用できません。そして、私はabbyyでいくつかのテストを行った、品質はatalasoftのOCRに匹敵する。 Annyの他の提案? –

関連する問題