pdfminer - PDFテーブルへのアクセス

私はpythonスクリプトのライブラリとしてpdfMinerを使用してPDFを解析しています。pdfminer - PDFテーブルへのアクセス

これらのPDFのほとんどに、テーブルの1つが「company」という名前のテーブルがあります。

方法はありますか： 1）PDF内のそのテーブルの存在を検出します。 2）すべての会社名（表の2番目の列にあるすべてのエントリ）を取得します。あなたの助けのための

おかげ AC

私がこれまでに見つかった最良の方法はpdfminerのlibにHTMLコンバータクラスを使用することです。これにより、HTML形式のpdfを変換することができ、テーブル、行、列を簡単に把握することができます。少なくとも私の場合は、PDFファイル内のすべての種類のテーブルで動作する可能性があります。

2016-12-14 15:32:54

答えて