治療はサイト上でクロールしません

-2

私は共通のトラップを持っており、それを取り除くことはできません：私の治療スパイダーは非常に怠惰なので、それはstart_urlsだけを解析することができます。コード：治療はサイト上でクロールしません

import scrapy 

from scrapy.spiders import Rule 
from scrapy.linkextractors import LinkExtractor 
from scrapy.item import Field 
from scrapy.selector import Selector 

class HabraPostSpider(scrapy.Spider): 
    name = 'habrapost' 
    allowed_domains = ['habrahabr.ru'] 
    start_urls = ['https://habrahabr.ru/interesting/'] 


    def parse(self, response): 
     self.logger.info('A response from %s just arrived!', response.url) 


    rules = (Rule(LinkExtractor()), 
      Rule(LinkExtractor(allow=('/post/'),),callback='parse_post',follow= True))

誰かが私のクモを修正する方法を言うことができたら、私は非常に幸せになります！

出典

2016-05-14 Елена Серёгина

あなたの英語は完全に壊れていますが、私が理解しているところでは、クローラが見ているすべてのリンクに行きたいと思っています。そのために

は、あなたの代わりに Spider

class HabraPostSpider(scrapy.spiders.CrawlSpider)

チェックthe documentationのCrawlSpiderを使用する必要があります。

出典

2016-05-14 21:57:29

あなたは私を理解しています）そしてそれは仕事です、ありがとうございます。 –

しかし 'scrapy.spiders.CrawlSpider'は実際に –

治療はサイト上でクロールしません

答えて

関連する問題