私は、何人のユーザーが訪問したかを数えたページを持っています(登録ユーザー、ゲスト、あらゆる種類のユーザー...)。ウェブクローラを無視するには?
したがって、ページを表示するたびにデータベースのフィールドを更新します。はい、ページがすばやく更新されても、これについては気にしません。
もちろん、いくつかのボット/クローラが私のウェブサイトをスキャンすると、この値が増えてしまいます。では、無視するIPアドレスのリストはありますか?私はそれをするのに役立ついくつかの仕組みですか?
私は、何人のユーザーが訪問したかを数えたページを持っています(登録ユーザー、ゲスト、あらゆる種類のユーザー...)。ウェブクローラを無視するには?
したがって、ページを表示するたびにデータベースのフィールドを更新します。はい、ページがすばやく更新されても、これについては気にしません。
もちろん、いくつかのボット/クローラが私のウェブサイトをスキャンすると、この値が増えてしまいます。では、無視するIPアドレスのリストはありますか?私はそれをするのに役立ついくつかの仕組みですか?
IPアドレスが変更される可能性があるので、訪問者がボットかどうかを検出する最も良い方法ではありません。代わりに、私はHTTPリクエストパラメータのuser-agent文字列を調べることをお勧めします。
ユーザーエージェント文字列の一覧は、http://www.user-agents.org/です。 「ロボット、クローラー、クモ」のRタイプの下に特に見てください。
悪いクローラが人を電子メール?彼らは要求にユーザーエージェント情報を送りません:p –
@hugo_leonardo、それはまったく別の質問です。 – Pacerier
ほとんどの人は静的IPアドレスを持っていません。クローラ/ボットへのアクセスを拒否するにはrobots.txtを設定しましたか?ユーザーエージェントは簡単になりすまし/変更されますが、定期的にログファイルを照会してrobots.txtを尊重しないログファイルを特定できます。
彼はボットをブロックしたくないので、彼は彼の訪問の統計情報で無視したいと思います。 –
もう1つの方法はajaxです。ほとんどのクローラはjavascriptを解析しません。
ああ...ええ、これは良い点です:) "Most"とはどういう意味ですか? jsを解析するクローラはありますか? – markzzz
Googleはjavascriptを解析できます。しかし、**私はそれがURL内の '#! '(ツイッターのようなもの)のページでのみ行うと思う。 –
とにかく、googleは 'robots.txt'を尊重しているので、あなたもそれを使うべきです。必要に応じて統計情報のページだけを無効にすることができます。 –
robots.txtについて聞いたことがありますか? – Kumar
@クマ良い出発点です(私の答えで言及します)が、PITAクローラ/ボットは一般的にrobots.txtを無視するものです – marto
@marto PITAのボットはどういう意味ですか? – Pacerier