2016-04-17 7 views
1

私はこのような小さな画像から単語を抽出する必要があります。tesseractはこのイメージでこの単語を認識しないのは普通ですか?

enter image description here

私はこのように、スペイン語の言語オプションを使用して、コマンドラインからたTesseractを使用しています:

tesseract category.png -l spa -psm 7 category.txt 

私はこのテキストはと思いますOCRによって解析するのは簡単でなければならないが、その単語は認識されない。私はスペイン語の言語には-l spaを、-psm 7を使用しています。イメージには行しかないためです(とにかく-psmパラメータを使用しないと結果は同じです)。

これが結果です:s…"…

私はLANGパッケージにこのビルドを使用しています:http://domasofan.spdns.eu/tesseract/(githubの中に引用された公式のソースを)

答えて

1

たTesseractは、低解像度の文字をスキャンするときは本当に苦労しているようです。

enter image description here

この画像をスキャンしてください。私は解像度を400%向上させました(200%はスキャンで可能ですが、400%試してみると思います)、ぼかし量が多く、〜140値のしきい値を出しました。この1つをスキャンしてみると、結果ははるかによくなるはずです。あなたがプログラムでそれを行う必要がある場合は、あなたのために不明な点をコメントに書きます。私はあなたにいくつかの追加情報を提供します。

+0

あなたが正しいです、私はよりよい結果を得るために各画像のサイズを増やすだけです。 – dlopezgonzalez

+0

私はどのタイプのぼかしを適用したのでしょうか?また、解像度を高めたと言ったときに、サイズ変更を意味するのでしょうか? –

関連する問題