2017-02-18 7 views
1

は、私は、この特定のサイトサイトマップとそのディレクトリを読むにはどうすればいいですか?

http://www.dictionary.com

ためのWebクローラを構築した後robots.txt

User-agent: * 
Disallow: /site= 
Disallow: /5480.iac. 
Disallow: /go/ 
Disallow: /audio.html/ 
Disallow: /houseads/ 
Disallow: /askhome/ 
Disallow: /cite.html 
Disallow: /23219321/iac. 

Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml 

をチェックして、サイトマップのリンクから私は、ダウンロードすることができたとしていますそれを読んで。だから私の質問は、私がサイトマップを読んで、それが私を許可しなかったディレクトリを見つけることです。

申し訳ありません私の質問があまりにも漠然としていますが、これがどのように機能するのかわかりませんでした。

+0

サイトマップの目的は、エンジンを検索してウェブサイトのインデックスを作成することです。 robots.txtファイルに許可されていないURLは含めないでください。 –

+0

@DanNagleだから私は自分のWebクローラーでサイトを「Web-Crawl」することが許されているのですか? –

答えて

0

/site=/5480.iac.、...、/cite.html、または/23219321/iac.で始まるパスをクロールすることはできません。

例えば、

あなたはは、これらのようなURLをクロールすることはできません。

http://www.dictionary.com/go/ 
http://www.dictionary.com/go/foo 
http://www.dictionary.com/go/foo/bar 

あなたはは、これらのようなURLをクロールする許可されています。

http://www.dictionary.com/go 
http://www.dictionary.com/go.html 
http://www.dictionary.com/foo/go/ 

の場合サイトマップにはrobots.txtに従ってクロールできないURLが含まれていますが、まだ許可されていませんあなたがそれらをクロールするためのd。
サイトマップにクロールしてはならないURLを含めるのは直感的ではないかもしれませんが、サイトマップがクロール以外のエージェントによって使用されたり、クロールが許可されていないボットしかないなどの理由で、 。

関連する問題