BeautifulSoup
を使用していくつかのWebサイトをPythonで削っています。私は抽出したいウェブサイトのカウントダウンタイマーを見つけました。タイマーには、サイトの情報の残り時間が表示されます。いくつかのjavascriptメソッドが毎秒innerHTML
をトリガーしています。誰もそれを抽出する方法を知っていますか?Pythonを使用してWebページ上の動的時間カウンタを抽出する方法
答えて
無料のJavascriptのカウントダウンタイマーコードがGoogleの検索ではなく離れているため、スクリーンスクレイプしたい理由がわかりません。ここで私の好きなものはRobert Hashemianです:http://www.hashemian.com/tools/javascript-countdown.htm
しかし、まだそれを削りたい場合は、ウェブサイトのHTMLソースを調べる必要があります。タイマのjavascriptがドキュメントに埋め込まれている場合は、最初と最後の<script>
タグと</script>
タグを見つけて、その間にすべてをコピーする必要があります(これは、スクリプトをとらえなければならないため、スクリプトが(もっと可能性の高い)外部のjsファイルにある場合は、ファイルをダウンロードするだけです。
これまでのところ、私はbeautifulsoupで静的コンテンツを取得することができましたが、これは動的なので、空の明らかに戻ります。私はfirebug拡張子を使用してデータを含むdivの属性を見つけました。私は外部のjsファイルをダウンロードする必要があります – Bharats
例えば、私はこのページの右上隅にあるタイマーを取得したいhttp://www.snapdeal.com/deal-bangalore_mg_road_plus-tata-photon-blr – Bharats
私はなぜあなたは利用可能なコードを使用できないのか分かりません。しかし、このウェブサイトのスクリプトは、少なくとも「
」またはすぐに見える外部ファイルにはありません。 –- 1. WebページからPythonを使用してセクションを抽出する
- 2. Jsoupを使用してWebページから情報を抽出
- 3. 1クロックパルスイネーブルを使用してカウンタを起動する方法
- 4. jqueryを使用してページ上のアクション(ボタンクリック間のストップウォッチ)の時間を測定する方法
- 5. BeautifulSoupとPythonを使ってWebページから2つのテキスト文字列の間にテキストを抽出します
- 6. Pythonを使用してアイドル時間を検出する
- 7. PythonのHTMLParserを使用して特定のリンクを抽出する方法
- 8. htmlunitを使用して動的Webページをクロールする
- 9. wordpress:ページ上でカスタムフィールドの配列を抽出する方法
- 10. Javaを使用してWebページのURLからクエリ文字列を抽出する方法
- 11. Jsoupを使用してWebページからXMLリンクを抽出する
- 12. Webページからの情報をPythonで抽出する
- 13. Webページからテキストコンテンツを抽出する方法は?
- 14. Html Agility Packを使用してWebページからリンク、テキスト、タイムスタンプを抽出する方法
- 15. C#でhtmlagilitypackを使用してWebページからリンクと投稿を抽出する方法は?
- 16. Pythonを使用したWebスクレイピング - Webページのオブジェクトと対話する方法
- 17. Python 3.xでWebページからテキストを抽出する
- 18. 時間をプロットする方法は、Pythonを使用して値のグラフ
- 19. Pythonを使用してYouTube動画のタイトルを抽出するには
- 20. Pythonライブラリを使用してテキストのメイントピックを抽出する
- 21. linuxコマンドを使用してシーケンシングデータを抽出する方法
- 22. HTML :: TokeParserを使用してデータを抽出する方法
- 23. Javascript:一時的なIDとしてのタイムスタンプの使用#VS一時的なIDとしてのカウンタの使用#
- 24. GAE上のwebappで静的なWebページをサーバーする方法
- 25. 同じWebアプリケーションで動的Webページを生成する方法
- 26. Wgetを使用してユーザーエージェントを使用してWebページをダウンロードする方法
- 27. Scrapy(python 2.7)を使用して動的Webコンテンツをダウンロード
- 28. PHPを使用してPDFファイルからページを抽出する
- 29. Pythonを使用してWebページのAjax呼び出しからデータを返す
- 30. PHP(特にWordPress)を使用してページの見出しを抽出する方法
この情報では不十分です。あなたはそのページのHTMLとjavascriptについてもう少し詳しく教えてください。 –
そして「誰でもそれを行う方法を知っている」というのは良い質問ではありません。あなたは、あなたが何を試してきたのか、いつまで止まらないのかを教えてください。そして、はい、サイトへのリンクが良いだろう。 –