私はtikaを使用してテーブルがたくさんあるpdfファイルからテキストを抽出しています。tikaがたくさんのテーブルを持つpdfのテキストの不正な行を返す
java -jar tika-app-0.9.jar -t https://s3.amazonaws.com/centraldoc/alg1.pdf
いくつかの無効なテキストが返されています。また、2つの単語の間の空白を切り捨てることもあります。たとえば、「実世界に数学的アイデアを結び付ける」のではなく、 「現実世界へのinakli fmyathematical ideas」を返します。
このようなエラーを最小限に抑える方法はありますか?または私が使用できる別のライブラリがありますか?この種のpdfを処理するには、OCRを使用するのが理にかなっていますか?
最近Tikaの夜間ビルドを試しましたか? 0.9になったので修正されたようないくつかのバグが1.0にあります(間もなくリリース予定) – Gagravarr
ありがとうございます。 1.0の夜間ビルドをどこで手に入れることができるか知っていますか? http://svn.apache.org/repos/asf/tika/branches/ – surajz
Tika 1.0は[trunk](http://svn.apache.org/repos/asf/tika)から開発中です。 /トランク)。そこからsvnのチェックアウトを行い、mavenでビルドするか、[snapsot repository](https://repository.apache.org/content/groups/snapshots-group/org/apache/)からtika-app.jarを入手することができますtika-app/1.0-SNAPSHOT /) – Gagravarr