2016-08-23 9 views
3

私は、Tesseractを使用して数百万のPDFでOCRを行っています。できるだけ多くのパフォーマンスを絞り込もうとしています。Tesseractにメモリから画像を提供する方法

私の現在のパイプラインでは、convertを使用してPDFをPNGファイル(1ページに1つ)に変換し、それぞれにTesseractを使用しています。

プロファイリング時に、ファイルをディスクに書き込んだ後に再度読み込むのに多くの時間が費やされていることを発見しましたので、これをすべてメモリに移動したいと思います。

メモリ内で動作するPDFからPNGへの変換があるので、ファイルへのパスを与える代わりにメモリ内のBLOBをTesseractに渡す方法が必要ですか?私はこれのドキュメントや例を見つけることができませんでしたか?

+0

この質問への完全な答えを得られない場合は、回避策は、RAMディスクにイメージファイルを保存することです。 (多くのLinuxディストリビューションではデフォルトでRAMディスクが作成されています。) – John1024

+0

それは私の本能でもありませんが、私たちはそれを持っていません。 – mlissner

+0

'tesseract'は' stdin'を処理することができます... –

答えて

0

pytesseractを使用できます。 Google Tesseract用のPythonラッパーです。

使用法:

image = ... # read image to memory 
result = pytesseract.image_to_string(image, lang="eng") 
関連する問題