ウェブクロールが新しく、特定のrobots.txtファイルの理解に問題があります。Robots.txtとAllow?
User-agent: *
Allow:/
Sitemap: sitemapURLHere
だから私は/
hereを見上げると、それは任意のパスのためだった。この場合、これは、ウェブサイトを持っているものです。これは、ウェブサイトがすべてのページをクロールできることを意味しますか?しかし、ときに私はsitemap.xmlとの基本的なクロール(または別のサイトのURLを)やろうscrapyとのリンク、すなわち
scrapy shell siteURL
私はthisリンクからと仮定してい403 HTTP
応答は、ことを意味し得ますウェブサイトはあなたが掻き傷しないように望んでいます...このサイトのrobots.txt
はどういう意味ですか?
EDIT私が話していたファイルは、それが「robots.txt
と同じディレクトリにsitemapURLHere利用可能と呼ばれるサイトマップがある」「任意のユーザエージェント(ボット)は、すべてのコンテンツにアクセスすることができます」と意味here
おそらく認証が必要なページです。 404は通常、それを廃棄すべきではないことを示しています –
@ cricket_007私は見る!私はちょうどサイトの 'response.text'を印刷し、それがcaptchaを求めていることに気付きました、それは私の問題でしょうか? – ocean800
そうだね –