2009-05-09 15 views
9

Pythonを使用してページとそれに関連するすべてのリソース(イメージ、スタイルシート、スクリプトファイルなど)をダウンロードしたいと考えています。私は(やや)urllib2に精通していて、個々のURLをダウンロードする方法を知っていますが、BeautifulSoup + urllib2でハッキングを開始する前に、すでに「wget --page-requisites http://www.google.com」に相当するPythonがないことを確認したかったのです"WebページとそのすべてのリソースファイルをPythonでダウンロードする

具体的には、すべてのリソースを含め、ウェブページ全体をダウンロードするのにかかる時間に関する統計情報を収集することに興味があります。

おかげ マーク

+0

可能な複製http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler-that-i-could-use –

答えて

2

を参照してください。websucker.pyはCSSリンクをインポートしません。 HTTrack.comはPythonではなく、C/C++ですが、オフラインブラウジング用のWebサイトをダウンロードするための優れた管理されたユーティリティです。

http://www.mail-archive.com/[email protected]/msg13523.html [issue1124] Webcheckerは、CSS "@importのURL"

グイドを解析しない>これは、本質的にサポートされていないとunmaintanedコード例です。無料の でもパッチを提出してください!

関連する問題