pythonを使用してpdfファイルに保存されているタイトル、著者、件名、キーワードなどのプロパティ/メタデータを読むにはどうすればよいですか?pythonのPDFプロパティ/メタデータを読む
25
A
答えて
30
はpdfminerをお試しください:
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
fp = open('diveintopython.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
print doc.info # The "Info" metadata
は、ここで出力です:
>>> [{'CreationDate': 'D:20040520151901-0500',
'Creator': 'DocBook XSL Stylesheets V1.52.2',
'Keywords': 'Python, Dive Into Python, tutorial, object-oriented, programming, documentation, book, free',
'Producer': 'htmldoc 1.8.23 Copyright 1997-2002 Easy Software Products, All Rights Reserved.',
'Title': 'Dive Into Python'}]
詳細情報については、このチュートリアルを見てください:A lightweight XMP parser for extracting PDF metadata in Python。
3
pyPdfを使用して実装しました。以下のサンプルコードをご覧ください。
from pyPdf import PdfFileReader
pdf_toread = PdfFileReader(open("doc2.pdf", "rb"))
pdf_info = pdf_toread.getDocumentInfo()
print str(pdf_info)
出力:
{'/Title': u'Microsoft Word - Agnico-Eagle - Complaint (00040197-2)', '/CreationDate': u"D:20111108111228-05'00'", '/Producer': u'Acrobat Distiller 10.0.0 (Windows)', '/ModDate': u"D:20111108112409-05'00'", '/Creator': u'PScript5.dll Version 5.2.2', '/Author': u'LdelPino'}
注:pyPdf homepageが、それはもはや維持されていると言いません。
from PyPDF2 import PdfFileReader
pdf_toread = PdfFileReader(open("test.pdf", "rb"))
pdf_info = pdf_toread.getDocumentInfo()
print(str(pdf_info))
pip install PyPDF2
を使用してインストールします:Pythonの3のために
+1
'file'を使わないで、代わりに' open'を使います。 –
+2
pyPdfは、サポートされていないとしてホームページにマークされています。 –
5
はに更新@Khaleelからのコード例でPyPDF2を参照してください。 Pythonの3と新しいpdfminerについては
1
(pdfminer3kをインストールPIP):
関連する問題
- 1. 読むPDFファイル
- 2. perlのpdfファイルを読む
- 3. iphoneでPDFを読む
- 4. pdf ipad appを読む
- 5. phpでpdfファイルを読む
- 6. CでPDFを読む
- 7. PDFでテーブルを読むItextsharp
- 8. .NETのPDFからテキストを読む
- 9. PDFのメタデータを読む方法
- 10. Python HIDを読む
- 11. iTextを使用してpdfを読む
- 12. PDFをExt.Windowに読み込む
- 13. ipadアプリケーションでPDFファイルを読む
- 14. AndroidからPDFファイルを読む
- 15. キュウリが一時ファイルにpdfを読む
- 16. pythonバイトコードを読むには?
- 17. Pythonでバイナリファイルを読む
- 18. Pythonで.dicファイルを読む
- 19. Pythonで.vtkファイルを読む
- 20. Pythonでバイナリファイル(.chn)を読む
- 21. Pythonでファイルを読む
- 22. Python(ライブラリ)でマルチメディアプレイリストファイルを読む
- 23. Pythonでファイルを読む
- 24. Pythonのインプット読むフォーマット
- 25. イメージ/ファイルを読み込むことができません。pdf Django python
- 26. pythonのプロパティファイルを読む他のパッケージ
- 27. イメージを読むPythonのXMPデータ
- 28. バイナリデータをCのヘッダでPythonで読む
- 29. Pythonでファイルのコーデック情報を読む
- 30. Python用のigraphでDisconectedグラフを読む
ヘッドアップ:pdfminerの著者は、それが、少なくともこの記事の日付([リンク]のように、Pythonの3と互換性がないと言います(https://github.com/euske/pdfminer/)) – JSmyth
2013年11月現在、「PDFDocumentクラスは引数としてPDFParserオブジェクトを受け取り、PDFDocument.set_parser()およびPDFParser.set_document()は削除されました。つまり、doc = PDFDocument(パーサ)を実行し、set_document、set_parser、およびinitializeの呼び出しをスキップするだけです。 –
@JSmyth [PyPi Index](https://pypi.python.org/pypi?%3Aaction=search&term=pdfminer&submit=search)には現在、Python 3と互換性のある3つの動作中の 'pdfminer'フォークがリストされています。' pip search pdfminer' – zero2cx