0
pdfファイルからアラビア語テキストを抽出するのと同じ問題があります。解決策がある場合は を助けてください。 私は何度もpdfboxを試しましたが、結果はありません。PDFをjavaを使用してテキストに変換する
pdfファイルからアラビア語テキストを抽出するのと同じ問題があります。解決策がある場合は を助けてください。 私は何度もpdfboxを試しましたが、結果はありません。PDFをjavaを使用してテキストに変換する
PDFからテキストを抽出するときに間違って行くことができるいくつかの事が、あります。
詳細情報についてはthis questionをご覧ください。
あなたのプログラムはpdfから直接テキストを抽出する必要がありますか?そうでなければ、ocrを使ってpdfをテキストに変換し、txtファイルから読むことができます。 – Mr1159pm
*「私は同じ問題を抱えています。」*何が問題なの? –
PDFBoxでテキストを抽出するとかなり良い結果が得られました。多くの場合、ライブラリよりも優れていますが、多くのPDFはテキストを感覚的な直線的な方法で保存しないため、読み込み可能なテキストを自動的に抽出することが不可能になります。 (しかし、私はアラビア語の経験がありません)。あなたが持っているテキストは実際にはテキストであり、PDFに埋め込まれたイメージではありませんか? – RoToRa