PDFからフォームデータを抽出する（ライブラリまたはutlity）

ライブラリから、好ましくはubuntuにパッケージ化されたフリーソフトウェアライブラリを使用して、PDFからフォームデータを抽出したいと考えています。PDFからフォームデータを抽出する（ライブラリまたはutlity）

例えば、私はHTMLフォームを持っているとしますが、ユーザーがHTMLフォームの代わりに記入済みのPDFフォームを提出することも可能です。

私が探しているのは、PDFを入力として受け取るライブラリ（または単純なCLIユーティリティ）で、HTMLで書かれたフィールドを名前で抽出することができます。

私はpdftotextを試しましたが、実際には情報を保持していないだけでPDFをテキストとしてレンダリングします。私はPDFminerを試してみましたが、（少なくとも私のテストPDFでは）全く動作していないようでした（空の出力が得られました）。

ライブラリの場合、私は言語についてあまり気にしませんが、Pythonはプラスになります。

2012-04-12 Jeff

私はこれまで、PDFMinerを非常によく似た作業に使用してきましたが、これは常に非常にうまく機能しています。 – ely

私はpdftkを使用していくつかのデータを抽出し、pdfを操作していますが、あなたが必要としているように埋められたフォームを処理できるかどうかはわかりません。

2012-04-12 08:21:16 Jiri

これはpdftkのdump_data_fieldsを使って動作すると思います。それは、解析する必要があるテキスト形式で出力していますが、私はほとんどそこにいます。ありがとうございました！ – Jeff

答えて