PDFをjavaを使用してテキストに変換する

pdfファイルからアラビア語テキストを抽出するのと同じ問題があります。解決策がある場合はを助けてください。私は何度もpdfboxを試しましたが、結果はありません。PDFをjavaを使用してテキストに変換する

2011-12-05 Ouni Chafika

*「私は同じ問題を抱えています。」*何が問題なの？ –

PDFBoxでテキストを抽出するとかなり良い結果が得られました。多くの場合、ライブラリよりも優れていますが、多くのPDFはテキストを感覚的な直線的な方法で保存しないため、読み込み可能なテキストを自動的に抽出することが不可能になります。（しかし、私はアラビア語の経験がありません）。あなたが持っているテキストは実際にはテキストであり、PDFに埋め込まれたイメージではありませんか？ – RoToRa

PDFからテキストを抽出するときに間違って行くことができるいくつかの事が、あります。

PDFが暗号化されています。この場合、データを抽出するためにパスワードが必要です。
PDFは実際にはテキストを抽出することを目的としたものではありません。だから、pdfboxは通常、互いに接近して配置された文字を識別し、それらを単語に結合しようとします。あなたがイメージングできるように、これは簡単に間違って行くことができます。

詳細情報についてはthis questionをご覧ください。

出典

2011-12-05 10:12:31 nfechner

あなたのプログラムはpdfから直接テキストを抽出する必要がありますか？そうでなければ、ocrを使ってpdfをテキストに変換し、txtファイルから読むことができます。 – Mr1159pm

PDFをjavaを使用してテキストに変換する

答えて

関連する問題