2016-04-07 32 views
0

私はこのクローラを稼働させるために約1日を試しています。 メインクモコードが詐欺師のクローラはウェブページをクロールしません

import scrapy 
from scrapy.spiders import Spider 
from scrapy.selector import Selector 


class gameSpider(scrapy.Spider): 
name = "game_spider.py" 
allowed_domains = ["*"] 
start_urls = [ 
    "http://www.game.co.uk/en/grand-theft-auto-v-with-gta-online-3-500-000-1085837?categoryIdentifier=706209&catGroupId=" 
] 

def parse(self, response): 
    sel = Selector(response) 
    sites = sel.xpath('//ul[@class="directory-url"]/li') 
    items = [] 

    for site in sites: 
     item = Website() 
     item['name'] = site.xpath('//*[@id="details301149"]/div/div/h2/text()').extract() 
     """item['link'] = site.xpath('//a/@href').extract() 
     item['description'] = site.xpath('//*[@id="overview"]/div[3]()').re('-\s[^\n]*\\r')""" 
     items.append(item) 

    print items 
    return items 

アイテムコードは、高度なジェームスの

import scrapy 


class GameItem(Item): 
    name = Field() 
    pass 

おかげ

+0

@ダンマッシュが正しい。あなたは動的なページを扱っているかもしれません。 [Waits](http://selenium-python.readthedocs.org/waits.html)を参照してください –

+0

OKありがとうございます –

答えて

0

ですあなたのstart_urlsリンクが戻るにはアイテムがありません500 をerorr。

In [7]: sites = response.xpath('//ul[@class="directory-url"]/li') 

In [8]: sites 
Out[8]: [] 
関連する問題