2012-04-12 9 views
2

ライブラリから、好ましくはubuntuにパッケージ化されたフリーソフトウェアライブラリを使用して、PDFからフォームデータを抽出したいと考えています。PDFからフォームデータを抽出する(ライブラリまたはutlity)

例えば、私はHTMLフォームを持っているとしますが、ユーザーがHTMLフォームの代わりに記入済みのPDFフォームを提出することも可能です。

私が探しているのは、PDFを入力として受け取るライブラリ(または単純なCLIユーティリティ)で、HTMLで書かれたフィールドを名前で抽出することができます。

私はpdftotextを試しましたが、実際には情報を保持していないだけでPDFをテキストとしてレンダリングします。私はPDFminerを試してみましたが、(少なくとも私のテストPDFでは)全く動作していないようでした(空の出力が得られました)。

ライブラリの場合、私は言語についてあまり気にしませんが、Pythonはプラスになります。

+0

私はこれまで、PDFMinerを非常によく似た作業に使用してきましたが、これは常に非常にうまく機能しています。 – ely

答えて

2

私はpdftkを使用していくつかのデータを抽出し、pdfを操作していますが、あなたが必要としているように埋められたフォームを処理できるかどうかはわかりません。

+0

これはpdftkのdump_data_fieldsを使って動作すると思います。それは、解析する必要があるテキスト形式で出力していますが、私はほとんどそこにいます。ありがとうございました! – Jeff

関連する問題