は、私は、この特定のサイトサイトマップとそのディレクトリを読むにはどうすればいいですか?
ためのWebクローラを構築した後robots.txt
User-agent: *
Disallow: /site=
Disallow: /5480.iac.
Disallow: /go/
Disallow: /audio.html/
Disallow: /houseads/
Disallow: /askhome/
Disallow: /cite.html
Disallow: /23219321/iac.
Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml
をチェックして、サイトマップのリンクから私は、ダウンロードすることができたとしていますそれを読んで。だから私の質問は、私がサイトマップを読んで、それが私を許可しなかったディレクトリを見つけることです。
申し訳ありません私の質問があまりにも漠然としていますが、これがどのように機能するのかわかりませんでした。
サイトマップの目的は、エンジンを検索してウェブサイトのインデックスを作成することです。 robots.txtファイルに許可されていないURLは含めないでください。 –
@DanNagleだから私は自分のWebクローラーでサイトを「Web-Crawl」することが許されているのですか? –