2016-10-16 9 views
0

私は適切な用語を使用しない場合、私を許してください。私は情報を収集しようとしているウェブページを持っています。問題は、私がページソースを見ると、私が掻きたいデータがそこにないということです。私は、この問題に遭遇した前に、メインのhttpリクエストが他のリクエストをトリガするので、私が探している情報は実際にGoogle chromes inspect - Networkフィーチャを使用している場所です。私はさまざまな文書やxhrファイルを手動で検索し、正しい情報を持つものを探します。これは時には長くて面倒です。私はまた、私が欲しい情報が含まれている要素を調べるためにGoogleクロムの検査機能を使用することができますが、それは正しいソースコードが表示されますが、私はすぐに対応するHTTPヘッダーを見つけるために、 。google chrome inspect要素からのHTTPリクエストの検索方法

ショートカットで再入力Google Chromeのinspect要素機能を使用して、そのコードを生成した対応するネットワークイベント(HTTPリクエスト)を表示するように頼みますか?

私が取り組んでいるケーススタディを追加します。

http://www.flashscore.com/tennis/atp-singles/acapulco/results/ 

は、テニストーナメントで行われたさまざまな試合を示しています。私はマッチした部分を掻き取ろうとしていますが、ページのソースを見ると、そこにはないことがわかります。

おかげ

答えて

1

Google Chromeのinspect要素機能を使用して、そのコードを生成した対応するネットワークイベント(HTTP要求)を表示するように頼みますか?

これはブラウザが追跡しているものではありません。

ほとんどの状況で、HTTP応答は、最終的にページの要素に変換される前に、かなりのJavascriptコードを通過します。特定の要素に対してどのHTTP応答が「責任がある」かを追跡すると、大量のデータフロー分析が必要になり、ブラウザが行うことは実際的ではありません。

+0

この記事を読んだ後:http://www.gregreda.com/2015/02/15/ Web-scraping-finding-the-api /データがクライアント側で処理されていることがわかりました.XHR呼び出しを見なければならないようですが、Webページ上で見られる一致のプレビューやコードを提供するものはありません。私は、サーバー側のデータを掻き集める予防的な対策を講じていると思いますか? – Vindictive

+0

これは、予防措置と同じようなケースではありそうにありません。サイトの作者は、ブラウザ側でHTMLレンダリングを行う方が簡単だと思った可能性が高い。 – duskwuff

0

一つの方法:

Firefoxを開き、インストールLiveHttpHeaders、それを実行し、あなたが期待HEADERSが表示されます。

google chromeのアドオンは同じですが、テストされていません。

+0

これは私が必要とするものではありません。ちょうどChromeが既に行っていることをするようです。 – Vindictive

+0

違いは、このサイトの_chrome dev tools_でhttpヘッダーをトレースできないということです(新しいページが開かれた可能性があります) –

関連する問題