2011-12-29 9 views
-1

PHPを使用してサイトのHTMLコンテンツを読み込み、特定のデータ用にマイニングしたいと考えています。サイトに「welcome」または「enter」画面をバイパスしますか?

しかし、サイトが「ようこそ」のようなページを読み込んだとき、ユーザーはボタンを押して次のページに移動する必要があります。ユーザーがこれを一度やった場合、ウェルカムページはもうロードされません(これはクッキーによるものと思われます)。

この「ようこそ」ページの背後にあるHTMLデータを読み込む必要があります。

このようなウェルカムページを迂回してそのページにアクセスする方法はありますか?おそらく、ユーザーが前にサイトに行ったことを示すハードコードされたCookieをサーバーに手動で送信することによって、

サイトには、年齢リクエストのCookieとセッションIDがあるようです。これは私がHTTP要求から得たものです:

Cookie: age_check=1; expires=Tue, 03 Jan 2012 11:57:23 GMT; path=/; domain=.youporn.com 
Cookie: screen_width=1024; expires=Tue, 03 Jan 2012 11:57:23 GMT; path=/; domain=.youporn.com 
Cookie: sid=rcAYeE8BssaK93YGZz82Ag==; expires=Wed, 01-Jan-14 13:36:06 GMT; domain=.youporn.com; path=/ 
+0

サイトコンテンツを取得するにはどのような方法がありますか? 'curl'ですか? –

+3

サイトの設計方法によって異なります。ハードコーディングされたクッキーで動作する可能性があります。そうでないかもしれない。サイトが実際にクッキーを保存しているかどうか、実際に調査したことがありますか、まあまあですか? –

+0

私はちょうど推測しています。 @refp私は単にfile_get_contentsまたはDOMDocument :: load()を使用しています – TravisG

答えて

0

これは、他のサイトに依存します。ユーザーがこのサイトを押しているこの追加のボタンなどについては、一見して分かります。その場合、このようなウェルカムページの直後にあるページをロードすることができます(本質的にはボタンをクリックします)。これは、ユーザーがこのサイトに既にアクセスしているかどうか(つまり、このようなウェルカムページを見て以前にクリックしたかどうか)を知っていることを前提としています。 の情報をに取得する方法を尋ねる場合は、他のサイトにアクセスするためのアクセス可能なAPIが必要な可能性があります。

+0

まあ、私はすでにそれの後ろにサイトを直接ロードしています。しかし、そのページはそのリクエストを受け取り、代わりにウェルカムページを送信します。より正確に言えば、それは歓迎のページではなく、私が話しているサイトの種類についてのアイデアを提供するために、「あなたが18歳以上であることを確認する」ページです。 – TravisG

関連する問題