2017-12-16 7 views
0

ブラウザのpdfビューアページを調べると、HTML構造がありますが、urllib2と要求の両方が返されず、BS4は無限ループに入ります。ブラウザのPDFビューアのHTMLを取得することは可能ですか?

私はちょうどページのタイトルを(頭の中に)欲しいです。

例のページ:あなたがMozillaのpdf.jsを使用している場合 http://victoria.lviv.ua/html/fl5/NaturalLanguageProcessingWithPython.pdf

答えて

1

、あなたはこのvia the PDF.js API, as detailed in this Issue.

pdf.info.get('Title') 

または

new Metadata(pdf.catalog.metadata) 
metadata.get('dc:title') 
+0

を行うことができるはず私は現在使用していますPython。 headタグからタイトルを取得したいと思っていましたが、html構造体を取得できないようです。私はPDF.jsに慣れていません。 – arm93

関連する問題