2016-07-18 24 views
0

いくつかのケースでは、空のフィード出力を返します。コマンドを使用してくださいScrapyスパイダーは、私が<a href="http://www.funda.nl/" rel="nofollow">http://www.funda.nl/</a>上のページをこすりするには、次のクモを書いて

scrapy crawl funda_spider -a place=amsterdam -o amsterdam.json 

次に、開始する719 KBのJSONファイルがありますこのように:

[ 
{"year_built": "1984", "area": "31", "url": "http://www.funda.nl/koop/amsterdam/appartement-49800928-jan-muschstraat-8/", "price": "132.500", "bedrooms": "1", "postal_code": "1065 LX", "rooms": "1", "address": "Jan Muschstraat 8", "property_type": "apartment"}, 
{"year_built": "1990", "area": "79", "url": "http://www.funda.nl/koop/amsterdam/appartement-85255640-zeeburgerkade-738-pp/", "price": "300.000", "bedrooms": "1", "postal_code": "1019 HT", "rooms": "2", "address": "Zeeburgerkade 738 +PP", "property_type": "apartment"}, 
{"year_built": "1906", "area": "93", "url": "http://www.funda.nl/koop/amsterdam/appartement-49897032-cliffordstraat-22-huis/", "price": "550.000", "bedrooms": "3", "postal_code": "1051 GT", "rooms": "4", "address": "Cliffordstraat 22 -HUIS", "property_type": "apartment"}, 

キーワード「アムステルダム」を指定することで、私はhttp://www.funda.nl/koop/amsterdam/からすべての住宅やアパートをこすりますよ。

これまでのところ、とても良いです。しかし、Fundaには、http://www.funda.nl/koop/provincie-zuid-holland/のような全省のページもあります。私はアムステルダムの外にいくつかの家やアパートのために、解析が何とかた、間違ってされていることである疑いが何

[ 

:私は

scrapy crawl funda_spider -a place=provincie-zuid-holland -o zuid_holland.json 

を使用して、これをこすりしようとした場合、私は、空のJSONファイルを取得しますJSON出力全体が空になります。 Zuid-Holland州の産出量を生産するにはどうしたらいいですか?

答えて

0

問題はURLをフィルタリングするために使用する正規表現です。LinkExtractorはそれに一致するURLを見つけることができませんが、LinkExtractor(allow=r'(huis|appartement)-\d{8}')に変更するとlike:

['http://www.funda.nl/koop/dordrecht/appartement-49650412-johanna-naber-erf-448/', 
'http://www.funda.nl/koop/den-haag/appartement-49805676-moerweg-210/', 
'http://www.funda.nl/koop/gouda/huis-49826340-baljuwslag-1/', 
'http://www.funda.nl/koop/hillegom/huis-49825295-de-kwekerij-3/', 
'http://www.funda.nl/koop/spijkenisse/huis-49825133-pampasgras-27/', 
'http://www.funda.nl/koop/leiden/huis-49825907-vlietweg-11/', 
'http://www.funda.nl/koop/dordrecht/huis-49825879-driehoek-6/', 
'http://www.funda.nl/koop/zevenhuizen-zh/huis-49825567-kratonlaan-2/', 
'http://www.funda.nl/koop/voorhout/huis-49814862-ludolph-bohlenstraat-21/', 
'http://www.funda.nl/koop/brielle/huis-85278226-koningsdiep-23/', 
'http://www.funda.nl/koop/middelharnis/huis-49814415-prins-bernhardlaan-124/', 
'http://www.funda.nl/koop/den-haag/huis-49814404-van-veendijk-8/', 
'http://www.funda.nl/koop/alphen-aan-den-rijn/huis-49814472-barentszstraat-29/', 
'http://www.funda.nl/koop/hazerswoude-rijndijk/huis-49813001-rijndijk-123/', 
'http://www.funda.nl/koop/schiedam/huis-49812284-singel-94/', 
'http://www.funda.nl/koop/alphen-aan-den-rijn/huis-49812863-gouwsluisseweg-91/', 
'http://www.funda.nl/koop/voorburg/huis-49811030-charlotte-van-pallandtlaan-23/'] 
関連する問題

 関連する問題