2016-05-05 6 views
-1

私は様々なページにまたがる可能性があり、その間にテキストを含む可能性のあるテーブルで構成されるPDFファイルを持っています。その例はhereです。 PDFをどのような形式にも変換できますが、出力ファイルは解析できません。つまり、データが散在しているため、そのデータを抽出できません。以下は、pdftotextpdftohtmlを使って作成した出力ファイルへのリンクです。PDFを任意の解析可能なフォーマットに変換する

より適切な方法でデータを抽出する方法はありますか? ありがとうございます。

+0

サンプルファイルに適切なタグが付いているようです。その点であなたのすべての文書を代表していますか? – mkl

+0

はい、すべてのファイルはほぼ同じ形式です。どのように正しくタグ付けされているか教えていただけますか?それはまさに私がテーブルを抽出するために必要なものです。 – ayuhsya

+0

*適切にタグ付けされているかどうか教えていただけますか?* - PDFを作成するときに、機械で解析可能なタグを挿入してコンテンツの構造を表すオプションがあります。サンプルファイルにはこれらのタグがあります。残念ながら、どのPythonツールがこれらのタグを適切に解釈するのかはわかりません。私は、Javaでデータを抽出する方法を知っています。 – mkl

答えて

1

一般的な回答はありません。 pdfは、視覚的なプレゼンテーションと印刷を目的としたフォーマットであり、pdfが紙やスクリーンにレンダリングされたときに表示される以外の方法で、コンテンツが特定の順序でテーブルとして構成されることは保証されません。あなたが試みていることを誰もしないように意図的に難読化さえすることさえあります。

この場合、各テーブル要素の内容を切り取って貼り付けることが可能であるようです。少数の類似したファイルの場合は、ほとんど確実に最速のことです。画面の左側にあるpdf、右側にスプレッドシートまたはデータ入力プログラムを開き、カットアンドペーストします。中位の数 - 数十、数百? - おそらくロバの仕事をするために一時的な人を雇うことはおそらく最も安いでしょう。多数の場合 - 数千? - このプロセスを自動化するプログラムを作成することは可能ですが、間違いなく簡単です。私は、人間の入力をマウスを使ってテーブルの角と水平/垂直の区画を識別し、ヒューマン・インターフェース・デバイスの制御を介してカットアンドペースト操作を生成することについて考えるかもしれません。どのように私に尋ねないでください。私はこれをしなければならないかどうか調べなければならないだろうし、むしろそうしたくないだろう。それはWOMBATです。

pdfの内容で行った分析の形式は、異なるソフトウェアを使用している異なる組織によって作成された他のpdfsには一般化されません。同じプロセスを使用する同じ組織でも同じソフトウェア。

1

@ nigel222の行に続いて、実際にPDFに依存して、データをいくつかの便利な方法で簡単に取得できます。

PDFが構造化されている(PDFが書き込まれたときに作成された文書構造を持つ)のが最適です。この場合、構造にアクセスすることができ、すべて設定されます。

構造体はアクセス可能なPDFの基本的な必要性であるため、さまざまな「アクセス可能な」ユーティリティを適用してドキュメントを「マッサージ」することができます。それに続くものは間違いない。

関連する問題