2011-08-15 2 views
2

私はtikaを使用してテーブルがたくさんあるpdfファイルからテキストを抽出しています。tikaがたくさんのテーブルを持つpdfのテキストの不正な行を返す

java -jar tika-app-0.9.jar -t https://s3.amazonaws.com/centraldoc/alg1.pdf 

いくつかの無効なテキストが返されています。また、2つの単語の間の空白を切り捨てることもあります。たとえば、「実世界に数学的アイデアを結び付ける」のではなく、 「現実世界へのinakli fmyathematical ideas」を返します。

このようなエラーを最小限に抑える方法はありますか?または私が使用できる別のライブラリがありますか?この種のpdfを処理するには、OCRを使用するのが理にかなっていますか?

+0

最近Tikaの夜間ビルドを試しましたか? 0.9になったので修正されたようないくつかのバグが1.0にあります(間もなくリリース予定) – Gagravarr

+0

ありがとうございます。 1.0の夜間ビルドをどこで手に入れることができるか知っていますか? http://svn.apache.org/repos/asf/tika/branches/ – surajz

+0

Tika 1.0は[trunk](http://svn.apache.org/repos/asf/tika)から開発中です。 /トランク)。そこからsvnのチェックアウトを行い、mavenでビルドするか、[snapsot repository](https://repository.apache.org/content/groups/snapshots-group/org/apache/)からtika-app.jarを入手することができますtika-app/1.0-SNAPSHOT /) – Gagravarr

答えて

1

PDFBoxパーサーを使用するときの順序を制御してください。PDFTextStripperには、ドキュメント内の行の順序を制御するフラグがあります。デフォルトでは(PDFBoxでは)、パフォーマンス上の理由から(注文は保存されません)、falseに設定されていますが、Tikaはこのフラグをオンとオフに切り替えるリリース間で動作を変更しました。

詳細については、私のブログExtracting text from PDF files with Apache Tika 0.9 (and PDFBox under the hood)でこの問題を詳しく見てください。

関連する問題