私の最初の質問はここに:)ウェブページのすべてのリンクを詐欺でクロールしようとしています。しかし、私はページ上のリンクを出力することはできません
私はそこにある可能性のあるすべてのWebページのために私の学校のウェブサイトをクロールしようとしていた。しかし、私はテキストファイルへのリンクを取得することはできません。私は正しい権限を持っているので、問題はありません。
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
class hsleidenSpider(CrawlSpider):
name = "hsleiden1"
allowed_domains = ["hsleiden.nl"]
start_urls = ["http://hsleiden.nl"]
# allow=() is used to match all links
rules = [
Rule(SgmlLinkExtractor(allow=()), follow=True),
Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
]
def parse_item(self, response):
x = HtmlXPathSelector(response)
filename = "hsleiden-output.txt"
open(filename, 'ab').write(response.url)
私はhsleiden.nlページのみをスキャンしています。そして、response.urlをテキストファイルhsleiden-output.txtに入れたいと思います。
これを行う方法はありますか?
あなたの問題について具体的にご説明ください。何が起こると思いますか?代わりに何が起こっていますか? – Sheena
コードを借りたいと思ったら、どうすればいいですか? –