2011-08-01 7 views
1

私は、何人のユーザーが訪問したかを数えたページを持っています(登録ユーザー、ゲスト、あらゆる種類のユーザー...)。ウェブクローラを無視するには?

したがって、ページを表示するたびにデータベースのフィールドを更新します。はい、ページがすばやく更新されても、これについては気にしません。

もちろん、いくつかのボット/クローラが私のウェブサイトをスキャンすると、この値が増えてしまいます。では、無視するIPアドレスのリストはありますか?私はそれをするのに役立ついくつかの仕組みですか?

+4

robots.txtについて聞いたことがありますか? – Kumar

+2

@クマ良い出発点です(私の答えで言及します)が、PITAクローラ/ボットは一般的にrobots.txtを無視するものです – marto

+0

@marto PITAのボットはどういう意味ですか? – Pacerier

答えて

1

IPアドレスが変更される可能性があるので、訪問者がボットかどうかを検出する最も良い方法ではありません。代わりに、私はHTTPリクエストパラメータのuser-agent文字列を調べることをお勧めします。

ユーザーエージェント文字列の一覧は、http://www.user-agents.org/です。 「ロボット、クローラー、クモ」のRタイプの下に特に見てください。

+0

悪いクローラが人を電子メール?彼らは要求にユーザーエージェント情報を送りません:p –

+0

@hugo_leonardo、それはまったく別の質問です。 – Pacerier

1

ほとんどの人は静的IPアドレスを持っていません。クローラ/ボットへのアクセスを拒否するにはrobots.txtを設定しましたか?ユーザーエージェントは簡単になりすまし/変更されますが、定期的にログファイルを照会してrobots.txtを尊重しないログファイルを特定できます。

+2

彼はボットをブロックしたくないので、彼は彼の訪問の統計情報で無視したいと思います。 –

3

もう1つの方法はajaxです。ほとんどのクローラはjavascriptを解析しません。

+0

ああ...ええ、これは良い点です:) "Most"とはどういう意味ですか? jsを解析するクローラはありますか? – markzzz

+0

Googleはjavascriptを解析できます。しかし、**私はそれがURL内の '#! '(ツイッターのようなもの)のページでのみ行うと思う。 –

+0

とにかく、googleは 'robots.txt'を尊重しているので、あなたもそれを使うべきです。必要に応じて統計情報のページだけを無効にすることができます。 –

関連する問題