タイトルを自動的にダウンロードした論文の名前を変更するためのスクリプトを書いていますが、私が利用できるライブラリやテクニックがあるかどうか疑問に思っていますか? PDFはすべてTeXによって生成され、いくつかの「正式な」構造を持つ必要があります。PDFファイルからタイトルを抽出していますか?
13
A
答えて
13
pyPdfとthis exampleを試してみることができます。例えば
:
from pyPdf import PdfFileWriter, PdfFileReader
def get_pdf_title(pdf_file_path):
with open(pdf_file_path) as f:
pdf_reader = PdfFileReader(f)
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('/home/user/Desktop/my.pdf')
2
私はおそらくperlから始めるでしょう(いつも私が手に入れる最初のものとして見ています)。 several modules for handling PDFsがあります。一貫した構造を持っているならば、regexを使ってタイトルを探し出すことができます。
2
あなたは(私が探していることを推測したいすべてのこれらの論文はarXivのからのもの、あなたが代わりにarXivのIDを抽出したと仮定するとJython
0
でiTextを使用して試すことができますPDFのテキスト中の "arXiv:"は最初のヒットとしてidを一貫して明らかにするでしょう)。あなたはarXivの参照番号(及びpip install arxiv
を行っている)を持っていたら、あなたはあなたからPDFファイルのタイトルを得るのですか
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title
関連する問題
- 1. PDFファイルからテキストを抽出する
- 2. PHPを使用してPDFファイルからページを抽出する
- 3. pdfファイルからすべての画像を抽出
- 4. ファイル名から映画タイトルを抽出する方法
- 5. PDFから画像を抽出する
- 6. URLだけを使用してウェブページからタイトルを抽出
- 7. C#を使用してPDFファイルからイメージを抽出する方法
- 8. iTextを使用してpdfファイルからデータを抽出する方法
- 9. pdfファイルからベクトル画像を抽出する
- 10. PHPを使用してPDFからコンテンツを抽出する
- 11. PHPを使用してPDFからテキストを抽出する
- 12. pdfからcへのテキストの抽出#
- 13. jarからファイルを検索して抽出します。 Java
- 14. JPedalを使ってpdfファイルからデータを抽出するには?
- 15. VBAは - PDFからデータを抽出し、私はワークシートにPDF文書からデータを抽出しようとしているプロジェクトがある
- 16. XMLファイルのフォルダからXMLノード値を抽出していますか?
- 17. PHP> htmlファイルからhtmlデータを抽出していますか?
- 18. PDFからフォームデータを抽出する(ライブラリまたはutlity)
- 19. ITextまたはITextSharpまたはBouncyCastleを使用してpdfファイルからpkcs7(byte [])を抽出する
- 20. itextsharpを使用して、Pdfファイルからテキストとテキストの四角形の座標を抽出します。
- 21. RegExはCSSファイルからセレクタのみを抽出しますか?
- 22. .apkからファイルを抽出しますか?
- 23. $から情報を抽出していますか?
- 24. オブジェクトファイルから単一のプロシージャを抽出していますか?
- 25. ウェブサイトファイルから文字列を抽出していますか?
- 26. テキストファイルからトークンを抽出していますか?
- 27. thecontentからタイトルを抽出するには
- 28. JBoss Richfacesを使用したPDFからのテキストの抽出
- 29. Java - OCRを使用したPDFからのテキストの抽出
- 30. SWFファイルからビデオを抽出する
を使用して、タイトルを得ることができます
?これらの情報は、PDFドキュメントプロパティまたはPDFコンテンツから抽出する必要がありますか、他のソースからその情報を抽出していますか? – Rowan
[論文論文のPDFから情報を抽出する]の可能な複写(http://stackoverflow.com/questions/1813427/ext-ing-information-from-pdfs-of-research-papers) – Seanny123