2016-06-14 23 views
1

OCRエンジンとしてOpenCVとtesseractを使用して識別バッジを読み取るアプリケーションを開発しています。 OpenCVを使ってアルゴリズムを書いています.OpenCVは、OCRエンジンのクリアで「読みやすい」イメージを得るためにテキスト検出を処理します。私は私が何を得るilustrateするには、以下の画像を追加します。tesseract OCR-QがOとして検出されました

enter image description here

私は画像を「読み」するたTesseractを頼むとき、私は「KO 978」を取得...と、この「O/Qの問題」を検索しますtesseract、私はこのポストhttps://groups.google.com/forum/#!topic/tesseract-issues/kEDIIpQ-9W4だけを見つけましたが、ここでは、tesseractの入力イメージが明確に前処理されていないようです(応答はイメージが傾き補正されていないという応答です)...

wikiセクションに基づくgithubで、私は品質改善のすべてのステップを踏んだ(イメージがきれいだと思う)ので、私は他に何ができるかわからない... OCRのトレーニングが助けになるかどうかわからないそれは可能です、私はしたいですoこの作業を避けてください。また、ドキュメントでは推奨されていないためです。

私はコンソールでtesseract v3.03を使用しています。私のアプリケーションには統合されていません(tessarctは入力画像の前処理を行います)。

これを解決する方法はありますか?ありがとう!

+1

これは役立つかもしれません:http://stackoverflow.com/questions/33624784/tesseract-thinks-my-1s-are-7s –

+0

はい、おそらく私は手紙で手紙と後援者を比較しなければならないと思います。私はそれが助けることができると思う – user3368457

答えて

0

精度を向上させるために、言語ファイルを訓練することができます。 This article will help you for training

あなたがたTesseract言語ファイルのために訓練している間、あなたは注意unicharambigs file

を支払うあなたがイメージ上の二値化/しきい値のような前処理を行うことができます別の意見。

+0

私はタイポグラフィーを持っていないので、実際に訓練することは困難です(と多分問題を解決しないでください) 私はすべての前処理を作った、私は二値化された回転されていない画像があります。私はもっ​​と多くのことをすることはできません... – user3368457

+0

タイポグラフィは必要ありません。トレーニングのステップに従い、unicharambigsステップに集中してください。これはオプションですが、必要なものです。 –

関連する問題