2017-11-28 5 views
1

イムなしBeautifulsoupで画像を取り込む、しかし、ウェブサイトは、通常の<img src="icon.gif"/>形式でない画像が含まれています与えられたウェブサイトから画像を検索し、ダウンロードするbeautifulsoupを使用してHTML「のimg」タグ

引き起こしているもの

<form action="example.jpg">

<!-- <img src="big.jpg" /> -->

background-image:url("xine.png");

:例えば、私の問題は、このようなものです

イメージを検索するために私のコードは次のとおりです。私は、私は正規表現を使用する必要があるかもしれませんが、うまくいけば、私はする必要はありません

webpage = "https://example.com/images/" 
soup = BeautifulSoup(urlopen(webpage), "html.parser") 

for img in soup.find_all('img'): 
    img_url = urljoin(webpage, img['src']) 
    file_name = img['src'].split('/')[-1] 
    file_path = os.path.join("C:\\users\\images", file_name) 
    urlretrieve(img_url, file_path) 

と思います。事前

+1

使用フルパス 'urlretrieve(img_url、 "C:\ファイル\ CW \ダウンロード\" + FILE_NAME)' – furas

答えて

1

おかげで、あなたがファイルをにコピーしたい場所を正確に指定することurlretrieveに渡すパスを変更します。

file_path = os.path.join('c:\files\cw\downloads', file_name) 
urlretrieve(img_url, file_path) 

編集: あなたも見つけようとしているように見えますコメント内のタグimgFind specific comments in HTML code using pythonのオフビル:

... 
imgs = soup.find_all('img') 
comments = soup.findAll(text=lambda text:isinstance(text, bs4.Comment)) 
for comment in comments: 
    comment_soup = bs4.BeautifulSoup(comment) 
    imgs.extend(comment_soup.findAll('img')) 

for img in imgs: 
    ... 
関連する問題