2016-05-26 6 views
-1

私のNLP課題の1つでは、PDFファイルを読み込んで情報を抽出する必要があります。 Javaを使って私はPDFからテキストコンテンツを読み込み、NLPアルゴリズムをテキストに適用することができましたが、PDFのテーブルにある情報を抽出する必要がありますが、私はそれらを読み込もうとしていますが、フォーマット。どのように私はOpenNLP、GATE、これらを達成するためのスタンフォードNLPで任意のライブラリが利用可能な場合、PDF文書からテーブルを読むことができる任意のアイデア、または任意のヒント。NLPツールを使用してPDFからテーブルとイメージを読む

答えて

1

残念ながら、構造体としてのテーブルはPDFに格納されません。テーブルがどこにあるのか、列がどこにあり、行がどこにあるのか把握するためには、深刻な座標計算を適用する必要があります。

PDFの場合、Apache Tikaには特別なテーブル処理はありません(MSWord、MSPPTなどの多くの形式ではありますが、PDFでは使用できません)。

PDFからテーブルとしてテーブルを抽出するには、tabulapdf; John Hewsonのrecommendationも参照してください。また、PDFからテーブルを抽出するための商用ツールもあります - Abby Finereader、Nuance * PDF製品。

+0

コメントをいただきありがとうございます。私は既にtabulapdfを評価し始めました。そのコードをtweekingして、テーブルの内容を取得することはできますが、完全にはできません。完了時に更新されます。 – Nitin

関連する問題