サイトマップとそのディレクトリを読むにはどうすればいいですか？

は、私は、この特定のサイトサイトマップとそのディレクトリを読むにはどうすればいいですか？

http://www.dictionary.com

ためのWebクローラを構築した後robots.txt

User-agent: * 
Disallow: /site= 
Disallow: /5480.iac. 
Disallow: /go/ 
Disallow: /audio.html/ 
Disallow: /houseads/ 
Disallow: /askhome/ 
Disallow: /cite.html 
Disallow: /23219321/iac. 

Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml

をチェックして、サイトマップのリンクから私は、ダウンロードすることができたとしていますそれを読んで。だから私の質問は、私がサイトマップを読んで、それが私を許可しなかったディレクトリを見つけることです。

申し訳ありません私の質問があまりにも漠然としていますが、これがどのように機能するのかわかりませんでした。

出典

2017-02-18 kundu kana

サイトマップの目的は、エンジンを検索してウェブサイトのインデックスを作成することです。 robots.txtファイルに許可されていないURLは含めないでください。 –

@DanNagleだから私は自分のWebクローラーでサイトを「Web-Crawl」することが許されているのですか？ –

/site=、/5480.iac.、...、/cite.html、または/23219321/iac.で始まるパスをクロールすることはできません。

例えば、

あなたはは、これらのようなURLをクロールすることはできません。

http://www.dictionary.com/go/ 
http://www.dictionary.com/go/foo 
http://www.dictionary.com/go/foo/bar

あなたはは、これらのようなURLをクロールする許可されています。

http://www.dictionary.com/go http://www.dictionary.com/go.html http://www.dictionary.com/foo/go/

の場合サイトマップにはrobots.txtに従ってクロールできないURLが含まれていますが、まだ許可されていませんあなたがそれらをクロールするためのd。
サイトマップにクロールしてはならないURLを含めるのは直感的ではないかもしれませんが、サイトマップがクロール以外のエージェントによって使用されたり、クロールが許可されていないボットしかないなどの理由で、。

出典

2017-02-19 03:04:11 unor

サイトマップとそのディレクトリを読むにはどうすればいいですか？

答えて

関連する問題