Webクローラーに1つのルートページのみをクロールさせる責任ある/倫理的な時間遅延は何ですか?責任ある時間遅延 - ウェブクロール
私は私が何であるかの時間スケールで大まかなアイデアを探しています、次の呼び出し
requests.get(URL)
間time.sleep(#)を使用しています: あまりにも保守的 1ウェイ2.標準 3.問題が発生する/気が付いた場合
特定の条件を満たすすべてのページ(少なくとも20,000、おそらくはもっと多く)に触れたいと思います。これは合理的な期間内に実現可能ですか?
EDIT
この質問はブロックされて回避程度以下である(関連するすべての情報けれども。いただければ幸いです)ホストのウェブサイト/サーバーに問題が発生することはありません。何時間遅れや、むしろ。 私は10秒の遅延と約50ページでテストしました。私が慎重に過ごしているのであれば、単なる手がかりはありません。
(私はこれは、最小限の帯域幅を持つアマチュアのサーバーであると仮定していますか)?私はビューソース –
https://google.com/robots.txtにあります。それでおしまい! – jhpratt
サイトにサイトがない場合はどうなりますか?私はwww.xxxxxx.co.uk/robots.txtを検索しました –