2017-03-03 5 views
0

私は古いプロジェクトの1つにPythonで戻ってきましたが、データを抽出する方法を忘れてしまったようです。もし誰かが私に正しい方向とこれを実装するための文書を指し示すことができれば、それは感謝するだろう。PythonのURL終了文字列カウンタ

HTMLコードをスキャンしてHTMLページから情報を抽出するWebクローラーを実装しました。 mywebsite.com/product=1のURLは、私が使用しているBeautifulSoupとurllib2ライブラリを使用してスキャンされます。

しかし、私は最大10まで増分するmywebsite.comを持っています。正確にどのように私は、URLの末尾を抽出し、読み替えて置き換えることができますか?私はドメインのメインを置き換えるためにurlparseライブラリを実装した他の人に気づいたが、私のアプローチと同じではない。

> mywebsite.com/product=1 
> mywebsite.com/product=2 
> mywebsite.com/product=3 
> mywebsite.com/product=4 .. 
> mywebsite.com/product=10 

ありがとうございます!

答えて

2

ループスルーして10回クロールするのですか?

for i in range(1, 11): 
    url = r"mywebsite.com/product=" + str(i) 
    url = r"mywebsite.com/product={}".format(i) # or use str.format 
    print(url) 

    # crawl and extract 
関連する問題