責任ある時間遅延 - ウェブクロール

Webクローラーに1つのルートページのみをクロールさせる責任ある/倫理的な時間遅延は何ですか？責任ある時間遅延 - ウェブクロール

私は私が何であるかの時間スケールで大まかなアイデアを探しています、次の呼び出し
requests.get（URL）

間time.sleep（＃）を使用しています：あまりにも保守的 1ウェイ2.標準 3.問題が発生する/気が付いた場合

特定の条件を満たすすべてのページ（少なくとも20,000、おそらくはもっと多く）に触れたいと思います。これは合理的な期間内に実現可能ですか？

EDIT
この質問はブロックされて回避程度以下である（関連するすべての情報けれども。いただければ幸いです）ホストのウェブサイト/サーバーに問題が発生することはありません。何時間遅れや、むしろ。私は10秒の遅延と約50ページでテストしました。私が慎重に過ごしているのであれば、単なる手がかりはありません。

出典

2017-08-22 Andrew Allen

robots.txtを確認します。クロールの遅延が表示されている場合は、それを使用してください。そうでない場合は、合理的なものを試してください（これはページのサイズによって異なります）。大きなページの場合は、2 /秒を試してください。単純な.txtファイルの場合は、10 /秒で問題ありません。

その他すべてが失敗した場合は、サイトの所有者に連絡して、彼らがうまく処理できることを確認してください。

_{あなたはrobots.txtのを見つけるにはどうすればよい}

出典

2017-08-22 02:36:28 jhpratt

（私はこれは、最小限の帯域幅を持つアマチュアのサーバーであると仮定していますか）？私はビューソース –

https://google.com/robots.txtにあります。それでおしまい！ – jhpratt

サイトにサイトがない場合はどうなりますか？私はwww.xxxxxx.co.uk/robots.txtを検索しました –

責任ある時間遅延 - ウェブクロール

答えて

関連する問題