2011-02-28 49 views
2

PDF(通常は紙をスキャンして作成されたPDF)をOCRすることができ、認識されたテキストをPDFに戻すことができるライブラリ?おそらく、スキャンされた画像の背後にある目に見えないテキストです。OCRのテキストを元に戻すことができるOCRライブラリPDF

オープンソースが適しています。

(目標:。。私はLuceneのでインデックス化PDFファイルの膨大なライブラリを持っているのLuceneは、PDFファイルにテキストが含まれている場合はPDFファイルが関連しているものを見つけるすることがはるかに容易になるだろう)

+0

質問はhttps://softwarerecs.stackexchange.com/questions/3656/create-searchable-pdf-files-using-ocr-from-scanned-pdfs-in-bulkに移動しました –

答えて

0

最良の選択肢の一つがにありますおそらくAbbyy FineReaderを使用すると、隠れたテキストの作成を含むたくさんのオプションが得られます。 www.abbyy.com私は自分のサイトをすばやく見て、自分のニーズに合ったTransformer製品を見つけました。

http://www.abbyy.com.au/pdftransformer/product_features/

0

PDFファイルにテキストが含まれていない場合、何がLuceneのでインデックス化されましたか?

Tesseractを使用してOCRを実行するDocsplitt(https://github.com/documentcloud/docsplit)を見てください。 PDFの内容を反映したプレーンテキストファイルが得られます。これらのテキストファイルの上にLuceneインデックスを作成し、LuceneインデックスにPDFへの参照を格納することはできません。 Luceneインデックスを照会した後、元のPDFを参照してドキュメントのリストを取得します。

+0

PDFにはテキストが含まれていません。イメージのようなものです。私は別のファイルにテキストを持ち、それをPDFに挿入したい。可能であれば、私はLucene構成に触れたくはありません。私の質問はLuceneに関するものではありません(私はLuceneを例として挙げましたが、それは設定可能なデスクトップ検索ツールでもあります) –

+0

もしそうなら、これはあなたの問題の解決策であるようです:[http: /stackoverflow.com/questions/3335126/itext-add-content-to-existing-pdf-file)。 ITextは一つのことですが、PDFboxを見てみることもできます。 – maneo

+0

はい、ソリューションには実際にiText/PDFboxのようなものが含まれています。あなたがリンクしている質問でも、テキストは明らかになります。 iTextやPDFboxなどを使用して、目に見えないテキストを埋め込むことをお勧めします。 –

関連する問題