2009-04-08 15 views

答えて

3

良いクモ

  • それはだ場合より速く、平均的なユーザー

しかし、明確な検出よりも照会しますrobots.txtの

  • 適切なユーザーエージェントを持って読み込み、ブラウザやスパイダーは私が考えることはできません。

  • 1

    ボットを識別するためにユーザーエージェント文字列を使用してみます。

    別のボットは、別のユーザーエージェント文字列を持っているように見える:

    http://www.useragentstring.com/pages/useragentstring.php

    しかし、ユーザーエージェント文字列を簡単に偽装することができます。

    1

    一般的なボットが使用するUser-Agent文字列のリストを使用できます。何らかの形式のレート検出を使用して、非常に高い割合のリクエストがおそらくスパイダー(またはサイト全体を占めている)であると判断することができます。

    一般的なボットで使用されているIPアドレスのリストがあるかもしれませんが、不正な検出システムは不可能である可能性が最も高いです。

    実際の訪問者が決してクリックしないリンクを作成し、リンクに続くものをスパイダーとしてフラグを立てることができます。とにかくリンクをクリックする人がいるかもしれませんが、好奇心を避けることはできません。

    1

    スパイダーがうまくいけば、thisのような既存のユーザーエージェントのリストを使って、そのユーザーエージェントを使って検出できます。 robots.txtファイルを無視してユーザエージェントを偽装するロボットは、他の方法でスパイダーであることを隠す可能性が最も高いでしょう。