私はインターネットから写真をダウンロードしています。その結果、多くの写真をダウンロードする必要があります。私は実際に私が写真をダウンロードし、ダウンロードをするつもりリンクをループ(以下のコードのバージョンを使用しています:スピードアップurlib.urlretrieve
import urllib
urllib.urlretrieve(link, filename)
私はひどく遅い番号に基づいておよそ1000年の画像を15分ごとに、ダウンロードしています。、ダウンロードを並列化するコンピュータクラスタ上でジョブを実行するだけでなく
import socket
socket.setdefaulttimeout(5)
です:私はダウンロードする必要が
効率化のために絵を、私はタイムアウトを5秒ごとに(まだ多くのダウンロードがずっと長持ち)を設定しましたそこに画像をより速く/より効率的にダウンロードするにはどうしたらいいですか?
これはあなたにインスピレーションを与えることができると思います:http://stackoverflow.com/questions/1628766/python-package-for-multi-threaded-spider-w-proxy-support – snahor
傷病や捻挫などのパッケージを調べます。治療はねじれに基づいていますが、少し使いやすくなっています。どちらもノンブロッキングAPIを提供します。この方法で、複数のファイルを1つとしてダウンロードできます。 **ちょうどいいと同じサーバーからの並列ダウンロードの数を制限する** –
こんにちはTammo、ありがとう。 Btw、私はurllib2とscrappyを比較する優秀な記事を見つけました:http://www.scrapinginsider.com/2016/01/scrapy-urllib2-requests-beautifulsoup-lxml.html - また、私はマルチスレッドが大幅にパフォーマンスを向上させることができると信じています上のコードの。一度私はそれを行う方法を正確に把握すると私は答えを投稿します –