0
私はcsvファイルからランディングページのURLのリストを繰り返し、ランディングページのすべてのPDFリンクをリストに追加してから、それを繰り返すスクリプトを作成しようとしています指定されたフォルダにPDFをダウンロードするリスト美しいスープで刻んだリンクからPDFをダウンロードする
私は最後のステップでちょっと立ち往生しています。すべてのPDF URLを取得できますが、個別にしかダウンロードできません。私はどのURLがそれぞれの独自のファイル名を持つように各URLを変更するためにディレクトリアドレスを修正するのが最善かどうかはわかりません。
助けていただけたら幸いです!
from bs4 import BeautifulSoup, SoupStrainer
import requests
import re
#example url
url = "https://beta.companieshouse.gov.uk/company/00445790/filing-history"
link_list = []
r = requests.get(url)
soup = BeautifulSoup(r.content, "lxml")
for a in soup.find_all('a', href=True):
if "document" in a['href']:
link_list.append("https://beta.companieshouse.gov.uk"+a['href'])
for url in link_list:
response = requests.get(url)
with open('C:/Users/Desktop/CompaniesHouse/report.pdf', 'wb') as f:
f.write(response.content)