2012-07-26 34 views
9

次の画像をleptonicaで処理して、tesseractでテキストを抽出しようとしています。leptonica(反転カラーテキスト)を使用したOCRの画像処理

オリジナル画像: original image

たTesseract元画像利回りこの上:

i s l 
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37 
Bottom linez 
With a little time! 
you can learn social media technology 
using free online resources- 
And if you donity 
youlll be at a significant disadvantage 
to 
other HOn-pFOiiTS- 

ない素晴らしい、特にトップの背景。 processed image

しかしたTesseractはそれで良い仕事をしません:だから私は、次の画像を取得するために、バックグラウンド除去アルゴリズム(ブラー、違い、しきい値、反転)を使用leptionicaを使用して

@@r-mair [email protected] [email protected] [email protected] [email protected] [email protected] [email protected]@ll 
mm Mime 
VWU1 a Mitt-Jle time- 
@1m [email protected]@Wn Om @@@lh1 
using free onhne resources- 
Andifyoudoni 
9110 ate a $0 D 
to other non-profrts 
I 

主な問題は、今はすべてのテキストが固体の代わりに輪郭が描かれているようです。アルゴリズムを調整するにはどうすればよいですか?

答えて

9

それは、この論文はあなたの問題を解決し、二値化方法を提案しているようだ:

T Kasar、J・クマールとGラマクリシュナン。 Font and Background Color Independent Text Binarization。 (2007)

Kasar etal method performance

+0

これは素晴らしいことです。私は答えを受け入れる前に、あなたはこのアルゴリズムの実装について知っていることはありませんか? – jasonlfunk

+0

いいえ、残念ながら私は実装が存在するかどうかわかりません。 – sastanin

+5

私はpythonとopencvを使って実装しました。ありがとう! https://github.com/jasonlfunk/ocr-text-extraction – jasonlfunk