tikaがたくさんのテーブルを持つpdfのテキストの不正な行を返す

私はtikaを使用してテーブルがたくさんあるpdfファイルからテキストを抽出しています。tikaがたくさんのテーブルを持つpdfのテキストの不正な行を返す

java -jar tika-app-0.9.jar -t https://s3.amazonaws.com/centraldoc/alg1.pdf

いくつかの無効なテキストが返されています。また、2つの単語の間の空白を切り捨てることもあります。たとえば、「実世界に数学的アイデアを結び付ける」のではなく、「現実世界へのinakli fmyathematical ideas」を返します。

このようなエラーを最小限に抑える方法はありますか？または私が使用できる別のライブラリがありますか？この種のpdfを処理するには、OCRを使用するのが理にかなっていますか？

出典

2011-08-15 surajz

最近Tikaの夜間ビルドを試しましたか？ 0.9になったので修正されたようないくつかのバグが1.0にあります（間もなくリリース予定） – Gagravarr

ありがとうございます。 1.0の夜間ビルドをどこで手に入れることができるか知っていますか？ http://svn.apache.org/repos/asf/tika/branches/ – surajz

Tika 1.0は[trunk]（http://svn.apache.org/repos/asf/tika）から開発中です。 /トランク）。そこからsvnのチェックアウトを行い、mavenでビルドするか、[snapsot repository]（https://repository.apache.org/content/groups/snapshots-group/org/apache/）からtika-app.jarを入手することができますtika-app/1.0-SNAPSHOT /） – Gagravarr

PDFBoxパーサーを使用するときの順序を制御してください。PDFTextStripperには、ドキュメント内の行の順序を制御するフラグがあります。デフォルトでは（PDFBoxでは）、パフォーマンス上の理由から（注文は保存されません）、falseに設定されていますが、Tikaはこのフラグをオンとオフに切り替えるリリース間で動作を変更しました。

詳細については、私のブログExtracting text from PDF files with Apache Tika 0.9 (and PDFBox under the hood)でこの問題を詳しく見てください。

出典

2011-08-15 22:56:12 topchef

tikaがたくさんのテーブルを持つpdfのテキストの不正な行を返す

答えて

関連する問題