2012-03-02 33 views
3

上付き文字を含むイメージを取得し、次にOCRを使用する単純なプロジェクトを開始しました(現在はtesseractを使用しています)。上付き文字+通常の文字を認識する必要があります。OCRを使用して上付き文字を認識する

たとえば、私たちはCl2(2は上付き文字)などの化学式を持っていますが、ocrを使ってそれを認識すると、Cl2(すべて1行になります)が表示されます。

この問題の解決方法は何ですか?上付き文字を読み取る能力を持つ他のOCR APIはありますか?

ありがとうございました。

答えて

4

どのOCRシステムの高度な機能にも触れる良い質問です。

まず、OCRシステム上にあっても機能を見落とさないようにするためです。結果のテストは、単純なTXT形式ではなく、ある種のリーチテキスト対応のビューアで確認してください。 Windowsのメモ帳などのTXTビューアは、しばしば上付き文字/下付き文字をサポートしていないため、OCRで正しい文字を指定しても、ビューアで表示される可能性があります。プログラマチックにテキスト結果にアクセスする場合は、直接アクセスするときに適切な下付き文字の値を取得することになっているため、それほど問題になりません。視聴者が実際に視聴するためには視聴者がそれをサポートしなければならないことに注意してください。この可能な後処理変換を削除し、OCRから下付き文字が返されていないことを確認した場合は、それをサポートしていない可能性があります。

このテキストボックスのように、元の質問では上付き文字の例を挙げてみましたが、このテキストボックスは他の場所からコピーして貼り付けることはできますが、このテキストボックスは受け入れませんでした。

多くのOCRでは、下付き文字が他の通常の文字と全く同じに見えます。あなたの使用のOCRは実際に上付き文字/下付き文字を生成するための技術的能力を必要としますが、多くはそうしていますが、商業OCRシステムである傾向があります。

私はこの手紙に答える前に小さなテストケースを作った。私は、私のテストのためにいくつかの上付き文字/下付き文字の例を使って画像を生成しました(もちろん、EMC2が頭に浮かんだ最初の例でした)。 www.ocr-it.com/documents/superscript_subscript_test_page.tif

をそして、このようなMSワード.DOCなど、すべてのデフォルト設定を使用しますが、リッチテキスト形式にエクスポートOCR-IT OCR Cloud 2.0 APIを通じて、この画像を処理した:
あなたはここに私のテスト画像を見つけることができます。

あなたがここに私のテスト画像を見つけることができます。 www.ocr-it.com/documents/superscript_subscript_test_page_result.doc

も注意してください:あなたは下付き/上付き文字を抽出することが興味を持っている場合は、お使いの画質に個別の注意を払って、あなたは一般的なテキストの場合と比べて、より。これらの文字は小さく、降下OCRの品質を達成するには十分な詳細と解像度が必要です。 300 dpiの画像でスキャンしても、ピクセルが少なすぎるため小さな文字に問題が生じることがあります。あなたがモバイルカメラとデジタルカメラを考えているなら、それはさらに重要になります。

開示:私の専門は、異なるサイズの企業向けに内部OCRソリューションを実装することです。私の会社はWiseTRENDです。私が何かを助けることができるなら、私に直接連絡してください。

+0

あなたが言及したリンクが現在機能していないことがわかりました。内容はありません。あなたが私に接続するためのスペースを提供できるならば、この問題に関してあなたに言いたいことがあります。 –

+0

Arpit、ええ、リンクが時間外に壊れました。時間が許せば私は復元しようとします。おそらくあなたがwisetrendドットコム、または510 754 9866で私に直接連絡することができればもっと簡単です。あなたが直面している特定の問題を手助けしようとします。 –

関連する問題