Robots.txtとAllow？

ウェブクロールが新しく、特定のrobots.txtファイルの理解に問題があります。Robots.txtとAllow？

User-agent: * 

Allow:/

Sitemap: sitemapURLHere

だから私は/hereを見上げると、それは任意のパスのためだった。この場合、これは、ウェブサイトを持っているものです。これは、ウェブサイトがすべてのページをクロールできることを意味しますか？しかし、ときに私はsitemap.xmlとの基本的なクロール（または別のサイトのURLを）やろうscrapyとのリンク、すなわち

scrapy shell siteURL

私はthisリンクからと仮定してい403 HTTP応答は、ことを意味し得ますウェブサイトはあなたが掻き傷しないように望んでいます...このサイトのrobots.txtはどういう意味ですか？

EDIT私が話していたファイルは、それが「robots.txtと同じディレクトリにsitemapURLHere利用可能と呼ばれるサイトマップがある」「任意のユーザエージェント（ボット）は、すべてのコンテンツにアクセスすることができます」と意味here

出典

2017-06-08 ocean800

おそらく認証が必要なページです。 404は通常、それを廃棄すべきではないことを示しています –

@ cricket_007私は見る！私はちょうどサイトの 'response.text'を印刷し、それがcaptchaを求めていることに気付きました、それは私の問題でしょうか？ – ocean800

そうだね –

です。

REM：robots.txtは、アクセス制限を実施することを意味するものではありません。スクラップできない場合は、robots.txt自体のためではありません。

出典

2018-02-01 13:30:15 JVerstry

Robots.txtとAllow？

答えて

関連する問題