私は大量のPDF文書を持っており、そこからテキストを抽出する必要があります。抽出されたテキストは、後で処理するために使用します。私は線形アプローチでTesseract APIを使用して小さな文書のサブセットに対してこれを行い、必要な出力を得ました。ただし、多数の文書がある場合、これには非常に時間がかかります。Tesseract APIを使用して一括PDF抽出を実装する必要があります
この問題を解決するためにHadoop環境処理機能(Map-Reduce)とストレージ(HDFS)を使用しようとしました。しかし、Tesseract APIをHadoop(Map-Reduce)アプローチに実装するには問題があります。 Teserractはファイルを中間イメージファイルに変換するので、Tesseract-APIプロセスの中間結果イメージファイルをHDFS内部でどのように処理できるか混乱します。
私が検索し、以前のようにunsuccesfullyいくつかのオプションを試してみました:
私はこのために私は、Apacheを使用し、Hadoopの-地図-削減使って自分のPdfInputFormatクラスにFileInputFormatクラスを拡張してPDFからテキストを抽出していますPDFBoxからpdfからテキストを抽出することができますが、画像を含むscan-pdfの場合、この解決法では必要な結果が得られません。
-Fuseを使用するという同じ話題で、画像ファイルをローカルで生成し、それをhdfsにアップロードして後で処理する必要があると答えた回答はほとんど見つかりませんでした。これが正しい方法であるかどうかは不明です。
これを回避する方法を知りたいですか?
Apache TikaはApache PDFBoxでファイルをレンダリングし、次にtesseractでOCRを行います。おそらくそれがあなたのためのものです... –
@TilmanHausherr応答をありがとう。 Map Reduceアプローチでこの作業を行うことができますか?可能であれば、いくつかの例を丁寧に説明してください。 – Bonson
申し訳ありませんが、私は残りの部分を助けることはできません。私はPDFBoxのためにここに来ました。 –