2016-04-13 4 views
0

私はトラブル私のような例のURLでサイトをクロールするscrapy例を見つけることだ:Scrapy例:site.com/page.aspx?id=1

site.com/page.aspx?id=1 

1がありますがIDに応じてpage.aspxの項目。私は最小数(例えば15)を渡してから、トップID(例えば25)が得られるまで治療を実行したいと思います。

クローラがトップIDに達すると、404やその他のコードではなく「不便」に関するメッセージが表示されます。

ほとんどの場合、番号を使用してアドレスを反復する方法が不思議です。私は、ページ上のリンクを発見し、それに従うことには興味がありません。

答えて

1
import scrapy 

class ExampleSpider(scrapy.Spider): 
    name = "example" 
    minimum = 15 
    maximum = 25 

    def start_requests(self): 
     for i in range(self.minimum, self.maximum + 1): 
      url = 'http://example.com/page.aspx?id={}'.format(i) 
      yield scrapy.Request(url) 

    def parse(self, response): 
     pass 
+0

完璧、ありがとう! –