これは長いショットですが、私は尋ねなければなりません。私はTesseract OCRエンジンをより速くするためのアイデアが必要です。私は約20Mページのテキストからなる2MのPDFを処理しており、できる限りのパフォーマンスを得る必要があります。現在の見積もりでは、何もしなければ、これは完了するまでに約1年かかります。テセラクトをより速く作る方法
私はそこでいくつかの向上を得るために入力画像を微調整しましたが、他のアプローチについて考える必要があります。私は、画像の改善が今のところ私をどこにでも連れていくとは思わない。例えば
:
- がたTesseractが最適化フラグまたはそのような何かを再コンパイルすることはできますか?
- 共有CPUメモリまたはGPUを動作させることはできますか?
- 私はTesseractに何とか多くのメモリを使用するよう指示することができますか(私はそれをたくさん持っています)?
- CPUバインドされたC++プログラムを高速化する方法はありますか?
現在、Tesseractは、マルチ処理を使用して作業を行う私たちのタスクランナー、Celeryによって運営されています。私はPythonの開発者だとたTesseractはC++で書かれているので、私は(?明らかに)私が話しているかわからない
、この方法では、私はこのようなサーバーの外観を作ることができますここでブーストを得る方法があれば、私はアイディアが大好きです。
返信いただきありがとうございます。それはあなたが持っている非常に印象的な設定のように聞こえる。残念ながら、私たちには何か似たようなことをするリソースはありません。 – mlissner