文書から特定のテキストブロックをスキャンし、それらをOCRする高品質カメラを使用するツールを作成する必要があります。各文書は同じテンプレートに一致し、データで満たされた表はほとんどありません。スキャンした各ドキュメントから特定のセルからデータを抽出する必要があります。複合文書からのOCRスキャン
画像の回転とマイナーチェンジを考慮する必要があります。ワークフロー全体は次のようになります。
- ドキュメントはカメラに「表示」されています。ソフトウェアによって文書の画像が作成されます。
- ソフトウェアはマイナーローテーションやその他の変換を行います(マイナーシャーリング、スケーリング、回転はドキュメントが手で保持されるため発生する可能性があります)。
- ソフトウェアは、適切なテンプレート文書が表示されていることを識別し、特定のセルから画像を抽出します。
- 画像がOCRされます。
基本的には、最終的な解決策は必要ありませんが、どこから始めるべきかについての指示はありません。私はプレーンテキストのOCR処理を行う方法を知っていますが、わからないことは、ステップ2と3を実装する方法です。
ありがとうございます。
文書のレイアウトは決まっていますか?プログラムが探すかもしれないいくつかのプレースホルダを追加できますか? –
いいえ、できません。ただし、ドキュメントは常に白の背景を持ち、周囲の背景と常にコントラストが高くなります(周囲も白くなることはありません)。基本的に、白い枠線を使用して形状を決定することができます。 – bezmax