2017-08-22 3 views
1

Webクローラーに1つのルートページのみをクロールさせる責任ある/倫理的な時間遅延は何ですか?責任ある時間遅延 - ウェブクロール

私は私が何であるかの時間スケールで大まかなアイデアを探しています、次の呼び出し
requests.get(URL)

間time.sleep(#)を使用しています: あまりにも保守的 1ウェイ2.標準 3.問題が発生する/気が付いた場合

特定の条件を満たすすべてのページ(少なくとも20,000、おそらくはもっと多く)に触れたいと思います。これは合理的な期間内に実現可能ですか?

EDIT
この質問はブロックされて回避程度以下である(関連するすべての情報けれども。いただければ幸いです)ホストのウェブサイト/サーバーに問題が発生することはありません。何時間遅れや、むしろ。 私は10秒の遅延と約50ページでテストしました。私が慎重に過ごしているのであれば、単なる手がかりはありません。

答えて

0

robots.txtを確認します。クロールの遅延が表示されている場合は、それを使用してください。そうでない場合は、合理的なものを試してください(これはページのサイズによって異なります)。大きなページの場合は、2 /秒を試してください。単純な.txtファイルの場合は、10 /秒で問題ありません。

その他すべてが失敗した場合は、サイトの所有者に連絡して、彼らがうまく処理できることを確認してください。

あなたはrobots.txtのを見つけるにはどうすればよい

+0

(私はこれは、最小限の帯域幅を持つアマチュアのサーバーであると仮定していますか)?私はビューソース

+0

https://google.com/robots.txtにあります。それでおしまい! – jhpratt

+0

サイトにサイトがない場合はどうなりますか?私はwww.xxxxxx.co.uk/robots.txtを検索しました –

関連する問題