2016-12-14 8 views
1

私はpythonスクリプトのライブラリとしてpdfMinerを使用してPDFを解析しています。pdfminer - PDFテーブルへのアクセス

これらのPDFのほとんどに、テーブルの1つが「company」という名前のテーブルがあります。

方法はありますか: 1)PDF内のそのテーブルの存在を検出します。 2)すべての会社名(表の2番目の列にあるすべてのエントリ)を取得します。あなたの助けのための

おかげ AC

答えて

0

私がこれまでに見つかった最良の方法はpdfminerのlibにHTMLコンバータクラスを使用することです。これにより、HTML形式のpdfを変換することができ、テーブル、行、列を簡単に把握することができます。少なくとも私の場合は、PDFファイル内のすべての種類のテーブルで動作する可能性があります。

関連する問題