2017-01-29 7 views
-1

私はこのウェブサイトをスクラップしようとしています。私はメインテーブルを取得したい。しかし、問題は、テーブルがJavascriptで読み込まれることです。したがって、この表のHTMLコードは削除できません。ここにコードがあります。JavaScriptを読み込んだ後にHTMLコードを取得する

from urllib.request import urlopen 
from bs4 import BeautifulSoup 
from selenium import webdriver 
import time 

driver = webdriver.PhantomJS(executable_path='') 
driver.get("http://bet.hkjc.com/racing/pages/odds_wp.aspx?date=30-01-2017&venue=ST&raceno=5&lang=en") 
time.sleep(3) 
pageSource = driver.page_source 
bsObj = BeautifulSoup(pageSource) 
print(bsObj.find(id="detailWPTable").get_text()) 

テーブルの内容を取得します。助けてください!

+0

http://stackoverflow.com/questions/41889513/getting-the-child-element-of-aあなたが昨日同じ質問をする - 特定のdiv要素を使用して美しいスープ。 –

+0

私は昨日解決策を手に入れませんでした。どこで答えを得るのですか? –

+0

質問を絞り込んで答えにコメントを追加すると、再びアクティブになり、コミュニティに表示されます。 –

答えて

1

あなたはそうのようdryscrapeで試すことができます。

from bs4 import BeautifulSoup as BS 
import dryscrape 

ses=dryscrape.Session() 
ses.visit("http://bet.hkjc.com/racing/pages/odds_wp.aspx?date=30-01-2017&venue=ST&raceno=1&lang=en") 
soup = BS(ses.body(), 'lxml') # Parse page content 

print(soup.find(id="detailWPTable").get_text()) 

出力:

No.ColourHorseDrawWt.JockeyTrainerWinPlaceWin & Place1FURIOUS PEGASUS6132O MurphyT K Ng278.42HAPPY FIERY DRAGON5132N CallanD Cruz3.21.03HAPPY WAY WINNER12132K C NgK W Lui207.64EMPIRE OF MONGOLIA1128C Y HoC S Shum39105DYNAMIC VOYAGE4125K C LeungL Ho185.16OPTIMISM10124C SchofieldD E Ferraris124.37TREASURE AND GOLD13124J MoreiraC H Yip5.53.38MANHATTAN STRIKER3122O DoleuzeC Fownes124.39CHANS DELIGHT2121M ChadwickD Cruz176.510SHOW MISSION14121H W LaiY S Tsui278.311FRIENDS FOREVER7119K K ChiongK L Man9.73.512STARRY STARLIES11115H T MoP O'Sullivan146.013INTELLECTUAL GLIDE9113M L YeungA Lee146.114BERNARD'S CHOICE8113K TeetanT K Ng175.2F Field 
関連する問題