私はいくつかのサイトをデータマイニングするために、Webスクレイピングフレームワーク、scrapyを使用しています。私はCrawlSpiderを使用しようとしており、ページには「戻る」と「次へ」ボタンがあります。 URLは、python/scrapy質問:無限ループを回避する方法
www.qwerty.com/###
の形式です。###は、次のボタンを押すたびに増加する数字です。無限ループが発生しないようにルールを書式設定するにはどうすればよいですか。
rules = (
Rule(SgmlLinkExtractor(allow='http://not-a-real-site.com/trunk-framework/791'),follow=True,callback='parse_item',
),
)