PDFファイルからタイトルを抽出していますか？

タイトルを自動的にダウンロードした論文の名前を変更するためのスクリプトを書いていますが、私が利用できるライブラリやテクニックがあるかどうか疑問に思っていますか？ PDFはすべてTeXによって生成され、いくつかの「正式な」構造を持つ必要があります。PDFファイルからタイトルを抽出していますか？

出典

2009-05-26 ZelluX

を使用して、タイトルを得ることができます

？これらの情報は、PDFドキュメントプロパティまたはPDFコンテンツから抽出する必要がありますか、他のソースからその情報を抽出していますか？ – Rowan

[論文論文のPDFから情報を抽出する]の可能な複写（http://stackoverflow.com/questions/1813427/ext-ing-information-from-pdfs-of-research-papers） – Seanny123

pyPdfとthis exampleを試してみることができます。例えば

：

from pyPdf import PdfFileWriter, PdfFileReader 

def get_pdf_title(pdf_file_path): 
    with open(pdf_file_path) as f: 
     pdf_reader = PdfFileReader(f) 
     return pdf_reader.getDocumentInfo().title 

title = get_pdf_title('/home/user/Desktop/my.pdf')

出典

2009-05-26 16:58:14 schnaader

私のために 'title = untitled' – ar2015

pyPdf .utils.PdfReadError：EOFマーカーが見つかりません – Victor

私はおそらくperlから始めるでしょう（いつも私が手に入れる最初のものとして見ています）。 several modules for handling PDFsがあります。一貫した構造を持っているならば、regexを使ってタイトルを探し出すことができます。

出典

2009-05-26 16:58:14 moshen

あなたは（私が探していることを推測したいすべてのこれらの論文はarXivのからのもの、あなたが代わりにarXivのIDを抽出したと仮定するとJython

出典

2009-05-26 17:00:36 northpole

でiTextを使用して試すことができますPDFのテキスト中の "arXiv："は最初のヒットとしてidを一貫して明らかにするでしょう）。あなたはarXivの参照番号（及びpip install arxivを行っている）を持っていたら、あなたはあなたからPDFファイルのタイトルを得るのですか

paper_ref = '1501.00730' 
arxiv.query(id_list=[paper_ref])[0].title

出典

2018-01-24 08:45:54 AndyP

PDFファイルからタイトルを抽出していますか？

答えて

関連する問題