ウェブクローラを無視するには？

私は、何人のユーザーが訪問したかを数えたページを持っています（登録ユーザー、ゲスト、あらゆる種類のユーザー...）。ウェブクローラを無視するには？

したがって、ページを表示するたびにデータベースのフィールドを更新します。はい、ページがすばやく更新されても、これについては気にしません。

もちろん、いくつかのボット/クローラが私のウェブサイトをスキャンすると、この値が増えてしまいます。では、無視するIPアドレスのリストはありますか？私はそれをするのに役立ついくつかの仕組みですか？

2011-08-01 markzzz

robots.txtについて聞いたことがありますか？ – Kumar

@クマ良い出発点です（私の答えで言及します）が、PITAクローラ/ボットは一般的にrobots.txtを無視するものです – marto

@marto PITAのボットはどういう意味ですか？ – Pacerier

IPアドレスが変更される可能性があるので、訪問者がボットかどうかを検出する最も良い方法ではありません。代わりに、私はHTTPリクエストパラメータのuser-agent文字列を調べることをお勧めします。

ユーザーエージェント文字列の一覧は、http://www.user-agents.org/です。「ロボット、クローラー、クモ」のRタイプの下に特に見てください。

2011-08-01 15:29:35 tskuzzy

悪いクローラが人を電子メール？彼らは要求にユーザーエージェント情報を送りません：p –

@hugo_leonardo、それはまったく別の質問です。 – Pacerier

ほとんどの人は静的IPアドレスを持っていません。クローラ/ボットへのアクセスを拒否するにはrobots.txtを設定しましたか？ユーザーエージェントは簡単になりすまし/変更されますが、定期的にログファイルを照会してrobots.txtを尊重しないログファイルを特定できます。

2011-08-01 15:31:11 marto

彼はボットをブロックしたくないので、彼は彼の訪問の統計情報で無視したいと思います。 –

もう1つの方法はajaxです。ほとんどのクローラはjavascriptを解析しません。

2011-08-01 15:35:08

ああ...ええ、これは良い点です:) "Most"とはどういう意味ですか？ jsを解析するクローラはありますか？ – markzzz

Googleはjavascriptを解析できます。しかし、**私はそれがURL内の '＃！ '（ツイッターのようなもの）のページでのみ行うと思う。 –

とにかく、googleは 'robots.txt'を尊重しているので、あなたもそれを使うべきです。必要に応じて統計情報のページだけを無効にすることができます。 –

答えて