ウェブサイトがコンテンツをスパイダーしているかどうかを検出するコードを書くことはできますか?Website Spidering Auto Detection
1
A
答えて
3
良いクモ
- それはだ場合より速く、平均的なユーザー
しかし、明確な検出よりも照会しますrobots.txtの
1
ボットを識別するためにユーザーエージェント文字列を使用してみます。
別のボットは、別のユーザーエージェント文字列を持っているように見える:
http://www.useragentstring.com/pages/useragentstring.php
しかし、ユーザーエージェント文字列を簡単に偽装することができます。
1
一般的なボットが使用するUser-Agent文字列のリストを使用できます。何らかの形式のレート検出を使用して、非常に高い割合のリクエストがおそらくスパイダー(またはサイト全体を占めている)であると判断することができます。
一般的なボットで使用されているIPアドレスのリストがあるかもしれませんが、不正な検出システムは不可能である可能性が最も高いです。
実際の訪問者が決してクリックしないリンクを作成し、リンクに続くものをスパイダーとしてフラグを立てることができます。とにかくリンクをクリックする人がいるかもしれませんが、好奇心を避けることはできません。
1
スパイダーがうまくいけば、thisのような既存のユーザーエージェントのリストを使って、そのユーザーエージェントを使って検出できます。 robots.txtファイルを無視してユーザエージェントを偽装するロボットは、他の方法でスパイダーであることを隠す可能性が最も高いでしょう。
関連する問題
- 1. Keypress detection
- 2. jquery mobile orientation detection
- 3. Netty Channel closed detection
- 4. Allegro Circle Collision Detection
- 5. Android Gesture Detection
- 6. Javascript canvas collision detection
- 7. WIX Office Detection Extension
- 8. iOS/mobile detection with devise
- 9. iOS Pong Development、Collision Detection
- 10. OpenCV vs Matlab - Line/Hallway Detection
- 11. -webkit-overflow-scrolling polyfill or feature detection
- 12. Javascript:OS-Detection ... Linuxの場合
- 13. IIS WebSiteにリモートアクセス
- 14. Silverlight application @ website
- 15. Asp.net website公開
- 16. Facebook chat on website
- 17. Codeigniter Website Creator
- 18. JQuery Multi Website Preview
- 19. タイトルIssue Prestashop Website
- 20. azure portal website publish
- 21. WebSiteのデータベース選択
- 22. Text Home on Joomla website
- 23. Magento getCollection with website filter
- 24. Button = Website AutoITのリンク
- 25. CloudKit for Website and iOS
- 26. WebSite Javascript検索エンジン
- 27. deploying asp.net mvc 3 website
- 28. classic asp/asp.net website - global.asa not working
- 29. 投稿Android Intent from website
- 30. Zend Website処理時間