PDF(通常は紙をスキャンして作成されたPDF)をOCRすることができ、認識されたテキストをPDFに戻すことができるライブラリ?おそらく、スキャンされた画像の背後にある目に見えないテキストです。OCRのテキストを元に戻すことができるOCRライブラリPDF
オープンソースが適しています。
(目標:。。私はLuceneのでインデックス化PDFファイルの膨大なライブラリを持っているのLuceneは、PDFファイルにテキストが含まれている場合はPDFファイルが関連しているものを見つけるすることがはるかに容易になるだろう)
質問はhttps://softwarerecs.stackexchange.com/questions/3656/create-searchable-pdf-files-using-ocr-from-scanned-pdfs-in-bulkに移動しました –