Robots.txtファイルを使用する場合、ユーザーエージェントの文字列はサーバーのログに表示されるとおりにする必要がありますか?ユーザエージェントの文字列は、サーバのログに表示される文字列とまったく同じである必要がありますか?
たとえば、GoogleBotと一致させる場合は、googlebot
を使用できますか?
また、部分一致は動作しますか?たとえば、ちょうどGoogle
を使用していますか?
Robots.txtファイルを使用する場合、ユーザーエージェントの文字列はサーバーのログに表示されるとおりにする必要がありますか?ユーザエージェントの文字列は、サーバのログに表示される文字列とまったく同じである必要がありますか?
たとえば、GoogleBotと一致させる場合は、googlebot
を使用できますか?
また、部分一致は動作しますか?たとえば、ちょうどGoogle
を使用していますか?
はい、ユーザーエージェントは完全一致でなければなりません。 robotstxt.orgから
:「グロブと正規表現は、ユーザーエージェントのいずれかでサポートさや線禁止されていない」少なくともGooglebotのため
を、ユーザーエージェントは、非大文字と小文字が区別されます。
https://code.google.com/intl/de/web/controlcrawlindex/docs/robots_txt.html
robots.txtのは、Googleが他のロボットよりも保守的ではあるが、大文字と小文字が区別され、その文字列のいずれかの方法を受け入れることができ、他のボットことがあります。セクション「ユーザーエージェントの優先順位」を読みますない。
(すでにanswered in another questionとして)original robots.txt specification (from 1994)で、それは言う:
ユーザーエージェント
[...]
ロボットがこれを解釈する際にリベラルでなければなりませんフィールド。大文字と小文字を区別しないバージョン情報がない名前の部分文字列一致が推奨されます。
[...]
しかし、/パーサはそのように動作している場合は別の問題です。あなたのベスト・ベットは、追加したいボットの文書を探すことです。あなたは一般的に、それにエージェント識別子の文字列を見つけることができます。例:
Bing:
私たちは、ウェブマスターがbingbot
はまだmsnbot
のために書かれたrobots.txtのディレクティブを尊重することを知ってほしい
ので、変更なしrobots.txtファイルに必要です。
DuckDuckBotはDuckDuckGoのためのWebクローラーです。それは尊重WWW :: RobotRules [...]
、Googleのユーザーエージェントは、(適切に十分な)
Googlebot
です。
ユーザエージェント
archive.org_bot
は、ウェブの私達の広いクロールするために使用されています。 robots.txtとMETAロボットのタグを尊重するように設計されています。
...
"完全一致" は(同じ敷地内)どのようなオリジナルのrobots.txtの仕様ではないことに注意してください[お勧めします](http://stackoverflow.com/a/18057223/1591669)。 – unor