2012-03-08 14 views
1

設定された数のサイトによって展開されているすべてのCookieを記録するクローラを作成しています。セレンを使用してページ訪問時に設定されているファーストパーティのCookieを取得できますが、ソフトウェアの制限はサードパーティのCookieを取得しないことを意味します。すべてのクッキーを選ぶことができる他のツールがありますか?サイトをクロールしてサードパーティのCookieを検出する

ありがとうございました。

答えて

1

あなたは1回のタスクとしてこれをやっている場合、あなたはすべてのCookieをエクスポートできますFirefoxブラウザにFireCookie延長のようなものを使用することができます:あなたは、このタスクを自動化したい場合は http://www.softwareishard.com/blog/firecookie/

定期的に実行する場合は、次のようなソリューションを検討してください。

  1. まず、クロールする必要があるページのリストを取得します。
  2. その後、各ページをWebブラウザに連続して読み込みます。 Cookieを設定する可能性のあるすべてのjavascript、iframeなどをロードして処理する必要があるため、単にページのHTMLをフェッチするだけでは不十分です。 PhantomJS(http://www.phantomjs.org/)などのヘッドレスブラウザや、実際にブラウザのようにページをレンダリングするものであれば他の解決策である可能性があります。
  3. Charlesプロキシ(http://www.charlesproxy.com/)などのWebプロキシを使用して、ブラウザからのすべてのネットワーク要求を記録します。記録されたセッションを保存して処理して、すべてのCookieヘッダーを抽出できます。チャールズ・プロキシには、セッションをXMLファイルにエクスポートするために使用できるAPIがあるため、この部分も自動化できます。
0

私はRegExとie.GetCookie()を使ってウェブサイトからすべてのクッキーを集めることができると信じています。自分で試してみたことはありませんが、ドキュメンテーションが始まるまでにはかなり楽になると思います。

+0

GetCookieは第1パーティのCookieのみを取り戻します。このインスタンスでRegExがどのように役立つかはわかりません。 – stats101

関連する問題