2017-02-02 11 views
1

tesseractツールを使用して画像からテキストを抽出しようとしています。しかし、特定の画像では、tesseractはテキストを検出できません。私はページimprove the quality of the outputに従うことを試みたが無駄だった。 tesseractが失敗したサンプル画像を添付しました。アウトプットの質を向上させるのに役立つ他の指針を教えてください。
pytesseractを使用して自動化しています。tesseractを使用して画像からテキストを抽出できません

enter image description here

答えて

1

たTesseractは、そのようなあなたのミームのように画像の背景、上のテキストを持って困難を知られています。したがって、テキストをバックグラウンドから削除するには、いくつかの前処理が必要になります。 OCR APIを使用している場合は、Google CloudバージョンまたはOCR.spaceを試してください。両方ともこのような画像でうまく動作します。

enter image description here

ocr.spaceからオーバーレイ。

関連する問題