2011-01-13 12 views
3

Robots.txtファイルを使用する場合、ユーザーエージェントの文字列はサーバーのログに表示されるとおりにする必要がありますか?ユーザエージェントの文字列は、サーバのログに表示される文字列とまったく同じである必要がありますか?

たとえば、GoogleBotと一致させる場合は、googlebotを使用できますか?

また、部分一致は動作しますか?たとえば、ちょうどGoogleを使用していますか?

答えて

2

はい、ユーザーエージェントは完全一致でなければなりません。 robotstxt.orgから

:「グロブと正規表現は、ユーザーエージェントのいずれかでサポートさや線禁止されていない」少なくともGooglebotのため

+0

"完全一致" は(同じ敷地内)どのようなオリジナルのrobots.txtの仕様ではないことに注意してください[お勧めします](http://stackoverflow.com/a/18057223/1591669)。 – unor

1

robots.txtのは、Googleが他のロボットよりも保守的ではあるが、大文字と小文字が区別され、その文字列のいずれかの方法を受け入れることができ、他のボットことがあります。セクション「ユーザーエージェントの優先順位」を読みますない。

0

(すでにanswered in another questionとして)original robots.txt specification (from 1994)で、それは言う:

ユーザーエージェント

[...]

ロボットがこれを解釈する際にリベラルでなければなりませんフィールド。大文字と小文字を区別しないバージョン情報がない名前の部分文字列一致が推奨されます。

[...]

しかし、/パーサはそのように動作している場合は別の問題です。あなたのベスト・ベットは、追加したいボットの文書を探すことです。あなたは一般的に、それにエージェント識別子の文字列を見つけることができます。例:

  • Bing

    私たちは、ウェブマスターがbingbotはまだmsnbotのために書かれたrobots.txtのディレクティブを尊重することを知ってほしい

    ので、変更なしrobots.txtファイルに必要です。

  • DuckDuckGo

    DuckDuckBotはDuckDuckGoのためのWebクローラーです。それは尊重WWW :: RobotRules [...]

  • Google

    、Googleのユーザーエージェントは、(適切に十分な)Googlebotです。

  • Internet Archive

    ユーザエージェントarchive.org_botは、ウェブの私達の広いクロールするために使用されています。 robots.txtとMETAロボットのタグを尊重するように設計されています。

  • ...

関連する問題