2011-07-22 11 views
-3

私はスクレーパーを作るためにpythonでurllibを使ってみたいと思っていますが、画像をダウンロードできますが、250x250以下のサムネイルです(私は4chanを試しています。画像スレッド) 完全な画像を取得するにはどうすればよいですか? は、ここに私のコードPythonスクレイパーに関する助けが必要

import urllib2, urllib 
from BeautifulSoup import BeautifulSoup 
import re 
import urlparse 

i = 0 

ext = "'src' : re.compile(r'(jpe?g)|(png)|$'" 

url = raw_input("Enter URL here:") 
ender = raw_input("Enter File Type Here(For Images enter 'img'):") 
if ender == "img": 
    ender = 'img', {'src' : re.compile(r'(.jpe?g)|(.png)|(.gif)$')} 

else: 
    if "." in ender: 
     end = ender 
    else: 
     end = ".%s" % ender 


raw = urllib.urlopen(url) 
soup = BeautifulSoup(raw) 

parse = list(urlparse.urlparse(url)) 

for ender in soup.findAll(ender): 
    links = "%(src)s"% ender 
    print links 
    str(links) 
    if ".jpg" in links: 
     end = ".jpg" 
    if ".jpeg" in links: 
     end = ".jpeg" 
    if ".gif" in links: 
     end = ".gif" 
    if ".png" in links: 
     end = ".png" 
    i += 1 
    urllib.urlretrieve(links, "%s%s" % (i, end)) 
+0

on 4chan、画像はハイパーリンクのようなもので、単に「href」部分を抽出してダウンロードします。 –

+0

しかし、別のウェブサイトでそれらを使用したいのですが? –

+2

4chanで完全なパスを解析するスクリプトを作成します。私は仕事中にあなたに例を書いてもらえませんし、人々が私に4chanのものをやってもらえるとは思わないと思っています:P –

答えて

2

あなたが大規模、リンク、画像全体に画像タグ点の周りで<a href="url">でURLを参照してくださいするにはここをクリックすることができるためです。

したがって、hrefプロパティの値を読み、画像のsrcプロパティの代わりにダウンロードしてください。

関連する問題