複合文書からのOCRスキャン

文書から特定のテキストブロックをスキャンし、それらをOCRする高品質カメラを使用するツールを作成する必要があります。各文書は同じテンプレートに一致し、データで満たされた表はほとんどありません。スキャンした各ドキュメントから特定のセルからデータを抽出する必要があります。複合文書からのOCRスキャン

画像の回転とマイナーチェンジを考慮する必要があります。ワークフロー全体は次のようになります。

ドキュメントはカメラに「表示」されています。ソフトウェアによって文書の画像が作成されます。
ソフトウェアはマイナーローテーションやその他の変換を行います（マイナーシャーリング、スケーリング、回転はドキュメントが手で保持されるため発生する可能性があります）。
ソフトウェアは、適切なテンプレート文書が表示されていることを識別し、特定のセルから画像を抽出します。
画像がOCRされます。

基本的には、最終的な解決策は必要ありませんが、どこから始めるべきかについての指示はありません。私はプレーンテキストのOCR処理を行う方法を知っていますが、わからないことは、ステップ2と3を実装する方法です。

ありがとうございます。

出典

2012-04-08 bezmax

文書のレイアウトは決まっていますか？プログラムが探すかもしれないいくつかのプレースホルダを追加できますか？ –

いいえ、できません。ただし、ドキュメントは常に白の背景を持ち、周囲の背景と常にコントラストが高くなります（周囲も白くなることはありません）。基本的に、白い枠線を使用して形状を決定することができます。 – bezmax

基本的に、プレーンテキストのOCRは、非常に優れたスキャン画像の場合には、よく解決されたタスクです。あなたが説明しているのは、画像キャプチャを使った画像前処理とフィールドレベルの認識です。私が知る限り、オープンソースエンジン（それらの中で最善と考えられるtesseractさえも）は、そのような機能を提供しません。

同時に、独自のOCRエンジンは、あなたが何年も記述したタスク（膨大な人的リソースを費やした）を解決しており、非常に順調に進んでいます。したがって、商用ソフトウェアを計画している場合は、http://ocrsdk.comをご覧ください。ウェブAPIを使用したクラウドOCR SDKです。画像をアップロードし、OCRされたデータを送り返すことができます。それはすでにすべての可能なイメージの前処理が組み込まれているので、ステップ2について心配する必要はありません。ステップ3については、ドキュメントのthis sectionを参照してください。私はこのサービスのフロントエンドを開発したチームの一員であったので、もう少し詳しく説明することができます。それが役に立てば幸い！

出典

2012-04-09 11:21:40 Nikolay

複合文書からのOCRスキャン

答えて

関連する問題