2016-11-23 5 views
0

私は現在、不動産データを扱っており、StreetEasyからいくつかのデータを盗み出したいと考えています。これはRegister to see what it closed for about 2 months ago以下の価格です。スクラップStreetEasyログインページ

例のURL http://streeteasy.com/sale/1220187

私が必要とするデータは、ログインが必要ですが、ログインメカニズムはかなり異なっています。ログインページがなく、ログインはポップアップです。とにかく、私はPythonを使って認証を取得し、ログイン後に下記の画像のようなページにアクセスできますか?

+0

私は実際には非常に似たようなことをしていますが、不動産のウェブサイトではなく、気にしています。 "phantomjs"や "selenium"のようなものを使うことを考えましたか? – Carlos

答えて

0

SeleniumとPhantomJSを使用すると、データをスクラップする際に強力な組み合わせが得られます。あなたが見る何

from selenium import webdriver 

host = "http://streeteasy.com/sale/1220187" 

driver = webdriver.PhantomJS() 

# Set the "window" wide enough so PhantomJS can "see" the right panel 
driver.set_window_size(1280, 800) 
driver.get(host) 

driver.find_element_by_link_text("Register to see what it closed for").click() 

driver.save_screenshot("output.jpg") 

は、セレンは(JPGのSCREENCAPを通じて検証)Webページのログインにあなたを得ることができる方法の小さな断片です。そこから、資格情報とclick()を入力することで、ログインボックスを切り替えることができます。

ああ、TOSに注意してください。がんばろう!

関連する問題