私はこの非常に短いスパイダーを書いて、米国のニュースリンクにアクセスし、そこに掲載されている大学の名前を取得しました。Scrapの空の.jsonファイル
#!/usr/bin/python
# -*- coding: utf-8 -*-
import scrapy
class CollegesSpider(scrapy.Spider):
name = "colleges"
start_urls = [
'http://colleges.usnews.rankingsandreviews.com/best-colleges/rankings/national-universities?_mode=list&acceptance-rate-max=20'
]
def parse(self, response):
for school in response.css('div.items'):
yield {
'name': school.xpath('//*[@id="view-1c4ddd8a-8b04-4c93-8b68-9b7b4e5d8969"]/div/div[1]/div[1]/h3/a').extract_first(),
}
私はこのクモを実行し、schools.jsonという名前のファイルに保存する名前を尋ねたときただし、ファイルが空白に出てきます。私は間違って何をしていますか?開始URLはいずれも含まれていないとして、あなたが参照しているページを、私は私の携帯の午前
のためのユーザエージェントあなたはターミナル/ CLIで得られた項目を参照していますか? – Umair
@Umairどういう意味ですか?私の端末出力にエラーは見られませんでした。 – ch1maera
@Umair「HTTPステータスコードは処理されない、または許可されませんが」私はこれを取得しました。 – ch1maera