2016-06-20 11 views
1

私は複数の賭けサイトから賭けデータを集めるためにウェブクローラーを構築しようとしています。私はいくつかのプログラミング経験を持っていますが、ウェブページ、ウェブスクラップなどの世界では非常に迷っています。Python web scraping - どこから始める

以前は "ボット"を構築するためにSeleniumを使用していましたが、 (?おそらく、JavaScriptの)チュートリアル(urllib、美しいスープ、など)が、すべてのそれらのチュートリアルは非常にシンプルなページをこすり、私が欲しいものは多少違うように見えるたとえば

、このページ:

https://sportsbet.io/sports/pre-live/category/kq9kajLnphopJwuwh

オッズなどのイベントはどうすれば入手できますか?

+1

* "どこから始める" *は適切な質問ではありません。 – jonrsharpe

+0

そのWebページは非常に複雑で、Js駆動されているようです。まずヘッドレスブラウザとブラウザの自動化でグーグルを見つけよう。セレンがウェブサイトによってブロックされる可能性があるので、あなたはファントムなどを使用する必要があります。 –

+1

法的側面については言及していません:* "テキスト、ロゴ、グラフィックス、画像、ボタンアイコン、ソフトウェアを含む、ウェブサイト上のすべてのコンテンツは、SPORTSBETが所有またはライセンスしています。 /またはSPORTSBETが明示的に許可しない限り、ウェブサイトに掲載された素材の一部をダウンロードすることができます。 – jonrsharpe

答えて

1

私はWeb Scraping with Python: Collecting Data from the Modern Webがウェブスクレイピングに関する経験は一切なく、あなたがパイソンの基礎を知っていることを前提とした素晴らしい本です。

著者は、すべての道スクレイピングに対するいくつかの保護を持っていることのJavascript/Ajaxの乗っサイトへの基本的な、静的なHTMLページをこすると同じくらい簡単からシナリオを介して表示されます。

一般的に、本はダウンロードのためのRequestsモジュールとhtmlの解析のためのモジュールBeautifulSoupを使用する例を示しています。

また、スクリプトでtorを使用してIPアドレスを隠す方法の例を示します。

私は本の売り手とは全く関係がありません。それは、私がこの本が非常に有用であることを発見し、あなたのように聞こえることだけです!

関連する問題