2011-01-05 7 views
1

では、次のようなイメージを持っていたとしますOCRとフォント認識が組み合わされていますか?

alt text

どのようにこの画像を分析し、処理の数秒で、各テキスト領域に対応する編集可能領域で文書を表示するために、サービスを構築します。

alt text

(矩形は、各編集可能な領域の境界を示すことを意味する。)

  • フォント検出(最も近いもの)
  • テキストスタイリング決意(フォントサイズ、フォントの太さ、行の高さ、文字間隔、font-のCSS同等物:10ソフトウェアは、複数のテクノロジを組み合わせる必要があるでしょう変形、テキスト装飾など)

ここから、ユーザーはこれらの各ボックスのテキストを編集して文書を修正することができます。

答えて

1

これは一般的なOCRエンジンが一般的に行うことです。

これは、多くの商用OCRエンジンが依然として愚かな間違いを引き起こし、ほとんどのエンジンが開発に長年かかっているように見えるほど簡単ではありません。

段落の境界ボックスを見つける問題は、OCRプロセスの一部です。あなたのケースでは、段落ゾーニングは簡単ではなく、新聞や雑誌のページを考えると、仕事ははるかに難しくなります。

バックグラウンド保存の問題は同様に困難です。シンプルな単色の背景は簡単に削除できますが、もう少し複雑なものを加えると非常に難しくなります。

3つの問題をすべて同じ画像にまとめると、さらに難しくなります。ラインやボックス、グレースケールシェーディング、ハーフトーン、回転フォント、フェードなどの特殊効果を追加すると、OCRはほとんど不可能になります。多くのOCRエンジンは、テキストが明確に定義された単純なページでは100%正確ですが、ドキュメントに複雑さを加えると読み取り速度が急速に低下し始めます。いくつかのOCRエンジンは他よりもはるかに優れています。

-1

無料のライブラリでこれを行うには、tesseractを使用します。それはあなたにOCRedテキストと一緒にバウンディングボックスと他のいくつかの機能を返します。

フォントについては、tesseractでその情報にアクセスできるかどうかはわかりませんが、そうでない場合は、テキストと画像を取得すると、既存のフォントと最も近いものを簡単に見つけることができます。

関連する問題