2009-05-26 29 views
13

タイトルを自動的にダウンロードした論文の名前を変更するためのスクリプトを書いていますが、私が利用できるライブラリやテクニックがあるかどうか疑問に思っていますか? PDFはすべてTeXによって生成され、いくつかの「正式な」構造を持つ必要があります。PDFファイルからタイトルを抽出していますか?

+0

を使用して、タイトルを得ることができます

?これらの情報は、PDFドキュメントプロパティまたはPDFコンテンツから抽出する必要がありますか、他のソースからその情報を抽出していますか? – Rowan

+0

[論文論文のPDFから情報を抽出する]の可能な複写(http://stackoverflow.com/questions/1813427/ext-ing-information-from-pdfs-of-research-papers) – Seanny123

答えて

13

pyPdfthis exampleを試してみることができます。例えば

from pyPdf import PdfFileWriter, PdfFileReader 

def get_pdf_title(pdf_file_path): 
    with open(pdf_file_path) as f: 
     pdf_reader = PdfFileReader(f) 
     return pdf_reader.getDocumentInfo().title 

title = get_pdf_title('/home/user/Desktop/my.pdf') 
+0

私のために 'title = untitled' – ar2015

+0

pyPdf .utils.PdfReadError:EOFマーカーが見つかりません – Victor

2

私はおそらくperlから始めるでしょう(いつも私が手に入れる最初のものとして見ています)。 several modules for handling PDFsがあります。一貫した構造を持っているならば、regexを使ってタイトルを探し出すことができます。

2

あなたは(私が探していることを推測したいすべてのこれらの論文はarXivのからのもの、あなたが代わりにarXivのIDを抽出したと仮定するとJython

0

iTextを使用して試すことができますPDFのテキスト中の "arXiv:"は最初のヒットとしてidを一貫して明らかにするでしょう)。あなたはarXivの参照番号(及びpip install arxivを行っている)を持っていたら、あなたはあなたからPDFファイルのタイトルを得るのですか

paper_ref = '1501.00730' 
arxiv.query(id_list=[paper_ref])[0].title 
関連する問題