2016-03-26 19 views
4

こんにちは、私は、次の数字に基づいて新しいフォントのたTesseractを訓練しようと数字のみを使用して新しいフォント:digits with transparent backgroundたTesseractトレーニング -

すべての桁が透明な背景を持つPNGファイルで提供されています。私がそれからボックスファイルを作成し、それを訓練するなど - すべて正常に機能します!あなたは数字が正確にように同じだけでなく、位置とされている見ることができるようdigits without transparent background

は今問題、同じ状況が、私は、次の画像に基づいたTesseractを訓練したいと思います。イメージ1との唯一の違いは、私は黄色の背景を使用していて、今はもう何も働いていないということです。私はここで停止し、他のすべてのを完了していなかっただけでなく

0 5 4 20 22 0 
1 27 4 38 21 0 
2 48 4 60 22 0 
3 71 3 83 22 0 
4 94 5 109 22 0 
5 119 5 131 22 0 
6 143 5 157 22 0 
7 172 5 184 22 0 
8 197 5 211 23 0 
9 224 5 238 22 0 

、その後、私は箱を訓練しますが、結果の.trファイルが完全に空である:私は私が最初の画像と同じ位置を設定ボックスファイルを作成しますステップ。結果のフォントは使用できません!

私の質問は、どのように背景に関係なく、この数字を認識するためにtesseractを訓練することですか?

編集2016年4月16日:

私は、前処理に画像をImageMagickを使用し、私は背景のすべての種類のために非常によく動作コマンドを発見しました。だから私はこの作成されたイメージのためにtesseractを訓練したいと思っていましたが、それは私が思ったようには機能しません...。 まず、ボックスファイルを作成しました。そこではほとんどが空でした。まあ、私はキャラクターの位置を整理するためにウェブサイトを使用し、私は完璧に作物を作るために多くの時間を費やしました!その後、私は結果の.trファイルを作成し、tesseractを訓練するための他のものも行いました。

は最終的に私は「traineddata」、私はたTesseractの「tessdata」ディレクトリにファイルを移動し、それが使用されるべきであるようにそれを使用しました:

tesseract example.jpg output -l mg 

(私は新しいフォント「MG」と呼ばれます)

大丈夫ですが、すべてまたは大部分を認識していません。私は助けを見つけるためにこのスレッドを開いた、今まで誰も本当にこれを行う方法の手がかりを持っていない、悲しいことに...。私を助けてください。

私が使用して作成した全体たTesseractトレーニングファイル、uがここで見つけることができます:

Tesseract training directoryを(なしのzip /ない圧縮として - ディレクトリのすべてのファイルの>ビュー)

+0

おそらくOTですが、前処理して背景色を削除することができます。 – xvan

答えて

1

をあなたは変更することができます任意のカラーイメージをバイナリイメージに変換してからtesseractを使用すると、どのような色を使用していても常に同じ結果が得られます。

関連する問題