2016-10-13 5 views
1

Google Vision APIのTEXT_DETECTIONに興味があり、印象的です。しかし、TEXT_DETECTIONはテキストが英語である場合にのみ正確に結果を出すようです。私の場合、TEXT_DETECTIONは、特定の言語(例えば、ベトナム語の場合)の広告バナーの検出テキストなど、非常に狭いコンテキストで使用したいと考えています。より正確な結果を得るために、私自身のデータ収集で機械を訓練することはできますか?これを実装する方法は?特定の言語のGoogle Vision APIのTEXT_DETECTIONを改善する方法

Google Vision APIのTEXT_DETECTIONに加えて、GoogleにはTesseractの依存関係を使用するGoogleの光学式文字認識(OCR)ソフトウェアもあります。私が知っているように、彼らはテキストを検出するためのさまざまなアルゴリズムを持っています。私は画像からテキストを読むためにGoogle DocsとTEXT_DETECTIONの両方を使っていました。 Google Docsは良い結果をもたらしましたが、Vision APIは良い結果をもたらしませんでした。なぜGoogle Vision APIはGoogle OCRの利点を継承しないのですか?

私はGoogle Vision APIのテキスト検出についてさらに詳しく説明したいと思います。おそらくGoogleエキスパートであれば、これはと読むことができます。 「この画像の言葉は斜めではっきりしていませんが、OCRは言葉とその位置を正しく抽出し、発表者のTシャツで「ビーコン」という言葉を取り上げます。 。しかし、私の写真の一部については、何が起こったのは本当に面白かったです。例えば、this picとすると、 "Kem Oxit"という言葉さえも写真の中央で非常に大きく、認識されませんでした。またはthis picでは、写真の中央にある赤い文字「HOAチャットNGOCベト」も認識されませんでした。テキスト検出アルゴリズムに問題があるはずです。

答えて

1

LanguageHints(link to documentation)で実験しましたか?

ベトナム語がsupported languagesのリストにある場合、テキストが常にベトナム語である場合、これはテキスト検出の品質を向上させるはずです。

これは役に立ちませんが、独自のトレーニングの例を与えることで、テキスト検出の品質を向上させることはできません。

+0

はい、私はLanguageHintsを見つけて試しましたが、結果は同じでした。 。 –

+0

残念ながら私は他の多くの選択肢はないと思います。また、[Google Group](https://groups.google.com/forum/#!forum/cloud-vision)のVision APIチームにお問い合わせください-discuss)、おそらく、画像のスケーリング/品質を最適化するためのヒントを与えることができます。たぶん大規模なデータセットがあるとすれば、モデルを改善するためにデータを使用することに興味があるかもしれませんが、これは純粋に投機的です。 – Fematich

0

Fematich現在、Google Vision APIのTEXT_DETECTION機能をトレーニングすることはできません。

光学文字認識ソフトウェアについては、linkに従ってGoogle Vision API for TEXT_DETECTIONで使用されています。より良い結果を得るには、best practicesのいずれかがあなたの写真に当てはまるかどうかを確認することが重要です。 Googleドキュメントには、Google Docs Help Forumでお問い合わせするのが面白い前処理メカニズムがあります。

解像度が375x500ピクセルの場合、最初の画像はbest practicesで説明されている640x480ピクセルの最小解像度要件を満たしません。それでも、1024x1365ピクセルにリサイズすることで、Google Vision APIは単語「Oxit」を検出することができました。第2の画像を文字認識のために1024x768ピクセルのOCR推奨サイズにリサイズした後、APIは再び「HOAチャットNGOC VIET」という単語を検出することに成功しました。将来このタイプの質問はPublic Issue Trackerの方が適切でしょうあなたの正確なエラーを再現するために詳細を必要とします。

+0

ご連絡いただきありがとうございます。今は明らかです。 –

関連する問題