2011-02-02 10 views
1

私は最近、スクラピーで作業を始めました。私はいくつかのページ(約50)に分割された大きなリストからいくつかの情報を収集しようとしています。 start_urlsの最初のページを含む最初のページから、私が望むものを簡単に抽出できます。しかし、私はこれらの50ページにすべてのリンクをこのリストに追加したくありません。私はよりダイナミックな方法が必要です。誰かが私が繰り返しどのようにWebページを擦ることができるか知っていますか?誰にもこれの例はありますか?ウェブサイトからウェブページをスクラップするためのスクラピーの再利用

ありがとうございます!

+0

を何をしようとして行うには、それを必要といけませんか?箇条書きのリストでプロセスを説明してください。かなりの数のリンクがあります(http://stackoverflow.com/questions/tagged/scrapy?sort=newest)。 – karlcow

答えて

0

50ページにすべてのリンクを追加しないのはなぜですか?ページのURLがwww.site.com/page=1,www.site.com/page=2のように連続しているのか、それともすべて異なるのですか?あなたが今持っているコードを私に見せることができますか?

1

urllib2を使用してページをダウンロードしてください。次にre(正規表現)かBeautifulSoup(HTMLパーサ)を使って、必要な次のページへのリンクを探します。 urllib2でダウンロードしてください。すすぎ、繰り返します。

Scapyは素晴らしいですが、あなたは何をやりたいん

関連する問題