2011-12-05 30 views
0

pdfファイルからアラビア語テキストを抽出するのと同じ問題があります。解決策がある場合は を助けてください。 私は何度もpdfboxを試しましたが、結果はありません。PDFをjavaを使用してテキストに変換する

+1

*「私は同じ問題を抱えています。」*何が問題なの? –

+0

PDFBoxでテキストを抽出するとかなり良い結果が得られました。多くの場合、ライブラリよりも優れていますが、多くのPDFはテキストを感覚的な直線的な方法で保存しないため、読み込み可能なテキストを自動的に抽出することが不可能になります。 (しかし、私はアラビア語の経験がありません)。あなたが持っているテキストは実際にはテキストであり、PDFに埋め込まれたイメージではありませんか? – RoToRa

答えて

0

PDFからテキストを抽出するときに間違って行くことができるいくつかの事が、あります。

  1. PDFが暗号化されています。この場合、データを抽出するためにパスワードが必要です。
  2. PDFは実際にはテキストを抽出することを目的としたものではありません。だから、pdfboxは通常、互いに接近して配置された文字を識別し、それらを単語に結合しようとします。あなたがイメージングできるように、これは簡単に間違って行くことができます。

詳細情報についてはthis questionをご覧ください。

+0

あなたのプログラムはpdfから直接テキストを抽出する必要がありますか?そうでなければ、ocrを使ってpdfをテキストに変換し、txtファイルから読むことができます。 – Mr1159pm

関連する問題