ウェブスクレイピングを開始しました。私は以下の特定のページからURLを取得したいと考えています。BeautifulSoupを使用してウェブページのURLをスクラップする方法
import requests
from bs4 import BeautifulSoup as Soup
page = "http://www.zillow.com/homes/for_sale/fore_lt/2-_beds/any_days/globalrelevanceex_sort/57.610107,-65.170899,15.707662,-128.452149_rect/3_zm/"
response = requests.get(page)
soup = Soup(response.text)
さて、私はスープのコンテンツ内のページのすべての情報を持っていると私はビデオのいずれかをINSPECTとき、私は画像
で提供されているすべての家庭のURLを取得したいと思います家の、クロームは画像では、このDOM要素を開きます。
にはどうすれsoup
を使用して<a href="">
タグ内のリンクを取得するのでしょうか?親は<div id = "lis-results">
だと思いますが、要素に移動する方法が必要です。実際には、テキストファイルにすべてのURL(391,479)が必要です。
Zillowにはこの種のデータジョブの便宜のためのAPIとPythonラッパーがあり、現在コードを探しています。私が得る必要があるのは、FOR SALE - >差し押さえと潜在的なリスト - >差し押さえられ、差し押さえられる前の情報のURLです。
[Zillow data API](http://www.zillow.com/howto/api/APIOverview.htm)を使用すると、[Python wrapper](https://github.com)があります。/hanneshapke/pyzillow)、ところで。 – alecxe
これは本当に役に立ちますが、私はAPIの使い方を学ぶ必要があります。 – Arefe