2016-05-14 7 views
-2

私は共通のトラップを持っており、それを取り除くことはできません:私の治療スパイダーは非常に怠惰なので、それはstart_urlsだけを解析することができます。コード:治療はサイト上でクロールしません

import scrapy 

from scrapy.spiders import Rule 
from scrapy.linkextractors import LinkExtractor 
from scrapy.item import Field 
from scrapy.selector import Selector 

class HabraPostSpider(scrapy.Spider): 
    name = 'habrapost' 
    allowed_domains = ['habrahabr.ru'] 
    start_urls = ['https://habrahabr.ru/interesting/'] 


    def parse(self, response): 
     self.logger.info('A response from %s just arrived!', response.url) 


    rules = (Rule(LinkExtractor()), 
      Rule(LinkExtractor(allow=('/post/'),),callback='parse_post',follow= True)) 

誰かが私のクモを修正する方法を言うことができたら、私は非常に幸せになります!

答えて

0

あなたの英語は完全に壊れていますが、私が理解しているところでは、クローラが見ているすべてのリンクに行きたいと思っています。そのために

は、あなたの代わりに Spider

class HabraPostSpider(scrapy.spiders.CrawlSpider) 

チェックthe documentationCrawlSpiderを使用する必要があります。

+0

あなたは私を理解しています)そしてそれは仕事です、ありがとうございます。 –

+0

しかし 'scrapy.spiders.CrawlSpider'は実際に –

関連する問題