2016-10-07 5 views
2

私はthis pageをクロールしようとしています。scrapyを使用してページからすべてのhrefコンテンツを抽出するには

私はこのようにしようとしていますScrapy

を使用して、指定されたウェブサイトからのリンクをすべて取得したい -

import scrapy 
import unidecode 
from scrapy.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 
from lxml import html 


class ElementSpider(scrapy.Spider): 
    name = 'linkdata' 

    start_urls = ["https://www.goodreads.com/list/show/19793.I_Marked_My_Calendar_For_This_Book_s_Release",] 


    def parse(self, response): 

     links = response.xpath('//div[@id="all_votes"]/table[@class="tableList js-dataTooltip"]/div[@class="js-tooltipTrigger tooltipTrigger"]/a/@href').extract() 
     print links 

しかし、私は出力に何も取得していないのです。

答えて

3

私はあなたのXPathが悪いと思います。試してみてくださいthis-

for href in response.xpath('//div[@id="all_votes"]/table[@class="tableList js-dataTooltip"]/tr/td[2]/div[@class="js-tooltipTrigger tooltipTrigger"]/a/@href'):  
      full_url = response.urljoin(href.extract()) 
      print full_url 

はそれが役に立てば幸い:)

幸運...

+0

大丈夫。高校生..その働き – john

関連する問題