tesseractはこのイメージでこの単語を認識しないのは普通ですか？

私はこのような小さな画像から単語を抽出する必要があります。tesseractはこのイメージでこの単語を認識しないのは普通ですか？

私はこのように、スペイン語の言語オプションを使用して、コマンドラインからたTesseractを使用しています：

tesseract category.png -l spa -psm 7 category.txt

私はこのテキストはと思いますOCRによって解析するのは簡単でなければならないが、その単語は認識されない。私はスペイン語の言語には-l spaを、-psm 7を使用しています。イメージには行しかないためです（とにかく-psmパラメータを使用しないと結果は同じです）。

これが結果です：s…"…

私はLANGパッケージにこのビルドを使用しています：http://domasofan.spdns.eu/tesseract/（githubの中に引用された公式のソースを）

出典

2016-04-17 dlopezgonzalez

たTesseractは、低解像度の文字をスキャンするときは本当に苦労しているようです。

この画像をスキャンしてください。私は解像度を400％向上させました（200％はスキャンで可能ですが、400％試してみると思います）、ぼかし量が多く、〜140値のしきい値を出しました。この1つをスキャンしてみると、結果ははるかによくなるはずです。あなたがプログラムでそれを行う必要がある場合は、あなたのために不明な点をコメントに書きます。私はあなたにいくつかの追加情報を提供します。

出典

2016-04-17 14:36:24

あなたが正しいです、私はよりよい結果を得るために各画像のサイズを増やすだけです。 – dlopezgonzalez

私はどのタイプのぼかしを適用したのでしょうか？また、解像度を高めたと言ったときに、サイズ変更を意味するのでしょうか？ –

tesseractはこのイメージでこの単語を認識しないのは普通ですか？

答えて

関連する問題