2017-03-07 17 views
0

tesseract ocr画像ファイルを文字列に変換して実行しました。tesseractのPythonの精度

今、私はどうすればaccuarcyをチェックするためにどのように

basewidth = 2700 
img = Image.open('D:OCR\\page1.png') 
wpercent = (basewidth/float(img.size[0])) 
hsize = int((float(img.size[1])*float(wpercent))) 
img = img.resize((basewidth,hsize), PIL.Image.ANTIALIAS) 
img.save('page1_zoom.png') 
print(image_to_string(Image.open('D:\page1_zoom.png'))) 
+0

データに注釈を付ける必要があります。 – erip

+1

"元のPNGファイルと出力テキストファイルを比較して、正確さが正しいかどうか"はどういう意味ですか? OCRを使用してOCRを検証しようとしていますか?一般的には、この種のものを手動で検証します。 – Chris

+0

あなたは質問をしています - OCRを検証するには、あなたが持っていない別の、さらに正確なOCRが必要です。それはあなたが手でそれを検証することを意味します。 – sashoalm

答えて

1

正しいかどうか、元のPNGファイルと出力テキストファイルを比較します

を入れて持っている何かが正確であるのですか?

間違いなく手動ベースライン/ゴールデンデータが必要です。あなたはあなたのテストデータ、または確認したいパラメータを少なくとも必要とします。

Test cases could be something like: 
1. Whole textual data 
2. No of lines 
3. No of Paragraphs 
4. Position of text 

GoogleのOCR VSたTesseract:

あなたが他のOCRでたTesseract精度をテストしたいならば、あなたは GoogleのOCRを試すことができたTesseractよりも良い結果が得られます(それが に基づいているがそれ)

たTesseractトレーニング:

Tesseract does provide feature of training to improve the accuracy of results.