私はプロジェクトのシンプルなボットのために働いていますが、多くのサイトにはrobot.txtファイルにサイトマップが含まれていないことに気付きました。もちろん、問題のサイトのインデックスを作成してすべての可能なページをクロールするオプションもありますが、単純にサイトマップをダウンロードするよりもはるかに時間がかかります。robots.txtにない場合、サイトマップを検出する方法はありますか?
robots.txtに記載されていないサイトマップを検出する最も良い方法は何ですか?
私はプロジェクトのシンプルなボットのために働いていますが、多くのサイトにはrobot.txtファイルにサイトマップが含まれていないことに気付きました。もちろん、問題のサイトのインデックスを作成してすべての可能なページをクロールするオプションもありますが、単純にサイトマップをダウンロードするよりもはるかに時間がかかります。robots.txtにない場合、サイトマップを検出する方法はありますか?
robots.txtに記載されていないサイトマップを検出する最も良い方法は何ですか?
通常は、xydomain.xyz/sitemap.xmlのようなドメインのルートディレクトリに配置する必要があります。
他の場所に配置されている場合、私はサイトマップをロボットファイルに追加します。サイトが別の場所にある複数のサイトマップを使用している場合は、index mapに記載する必要があります。
このonline toolを使用してサイトをスキャンし、サイト用の注文Sitemap.xlmファイルを作成できます。
robot.txtでサイトマップを検出するには、robot.txtファイルの最上部にサイトマップのURLを追加します(下記の例を参照)。
ので、robots.txtファイルは次のようになります。
Sitemap: http://www.example.com/sitemap.xml
User-agent:*
Disallow: