2011-07-10 48 views
1

一部の画像で光学式文字認識を実行した後、おおよその文字が表示されます。しばしば認識はあまり良くありません。たとえば、実際のテキスト「DATE」は「DHTE」または「0HTE」となります。基本的に私は、各行のデータを識別して抽出する必要があるので、完全に認識する必要はなく、日付行を特定するだけで十分です。私はLevenshtein編集距離を計算しようとしましたが、残念ながらこれはDATEとTIMEの値が似ている傾向があります。現時点では、代わりに正規表現を使用してデータパターンを照合できるかどうかを調べようとしています。ファジー文字列一致

マッチングプロセスを改善する方法/アルゴリズムはありますか?幸いにも、私の言葉はあまり大きくありません。

答えて

1

この1つは、いくつかのかなりクールなアルゴリズム http://secondstring.sourceforge.net/

これはのStringUtilsで基本的なものであるがあります(私はアルゴリズムのためのOCRとGroovy/Java用たTesseractを使用しています) levenstein distance