0
私は、pythonでscrapyフレームワークを使ってWebクローラーを作っています。 主な考え方は、クローラがページからデータを抽出するということです。データがいくつかの基準に一致する場合、クローラは現在立っているURLを抽出する必要があります。 scrappyに現在のURLを取得するメソッド/関数がありますか?クローラが現在立っているURLを抽出するにはどうすればよいですか?
ありがとうございました。
私は、pythonでscrapyフレームワークを使ってWebクローラーを作っています。 主な考え方は、クローラがページからデータを抽出するということです。データがいくつかの基準に一致する場合、クローラは現在立っているURLを抽出する必要があります。 scrappyに現在のURLを取得するメソッド/関数がありますか?クローラが現在立っているURLを抽出するにはどうすればよいですか?
ありがとうございました。
parse()に渡される 'response'変数には、必要な情報があります。何も上書きする必要はありません。
例えば、
def parse(self, response):
print "URL: " + response.url