Website Spidering Auto Detection

ウェブサイトがコンテンツをスパイダーしているかどうかを検出するコードを書くことはできますか？Website Spidering Auto Detection

2009-04-08 pang

良いクモ

しかし、明確な検出よりも照会しますrobots.txtの

が

適切なユーザーエージェントを持って読み込み、ブラウザやスパイダーは私が考えることはできません。

2009-04-08 09:13:55 Sebastian

ボットを識別するためにユーザーエージェント文字列を使用してみます。

別のボットは、別のユーザーエージェント文字列を持っているように見える：

しかし、ユーザーエージェント文字列を簡単に偽装することができます。

2009-04-08 09:15:28 maxyfc

一般的なボットが使用するUser-Agent文字列のリストを使用できます。何らかの形式のレート検出を使用して、非常に高い割合のリクエストがおそらくスパイダー（またはサイト全体を占めている）であると判断することができます。

一般的なボットで使用されているIPアドレスのリストがあるかもしれませんが、不正な検出システムは不可能である可能性が最も高いです。

実際の訪問者が決してクリックしないリンクを作成し、リンクに続くものをスパイダーとしてフラグを立てることができます。とにかくリンクをクリックする人がいるかもしれませんが、好奇心を避けることはできません。

2009-04-08 09:15:59

スパイダーがうまくいけば、thisのような既存のユーザーエージェントのリストを使って、そのユーザーエージェントを使って検出できます。 robots.txtファイルを無視してユーザエージェントを偽装するロボットは、他の方法でスパイダーであることを隠す可能性が最も高いでしょう。

2009-04-08 09:17:11 Caotic

答えて