2011-07-04 1 views
0

私はスクリプトを作成しています。私は助けを求めると思っていました。私は一連のウェブサイトを検索し、そのサイトが有効であるかどうかを調べたいと考えています。次に、サイトの特定のコンテンツを確認することです。サイトがそのコンテンツを保持している場合は、URLをリストに入れます。ウェブサイトのディレクトリから検索し、コンテンツに応じてリストにURLを入れます。

import urllib2 

def getPage(): 

    url="import urllib2 

National=[] 
Local=[] 
Sports=[] 
Culture=[] 

def getPage(): 

    url="http://readingeagle.com/section.aspx?id=2"  

    for i in range (0,100,1) 
     req = urllib2.Request(http://readingeagle.com/section.aspx?id=,i) 
    if "national" in response: 

    response = urllib2.urlopen(req) 

    return response.read() 
    for g in range (0,100,1) 
    if "national" in response: 
     National.append("http://readingeagle.com/section.aspx?id=,g" 


# I would like to set-up an iteration to check the 'entryid from 1-100. If the term is found on the page, place the url in the list. 

if __name__ == "__main__": 

    namesPage = getPage() 

    print (namesPage) 
+0

質問...質問ではありません!他のプログラマーがあなたを助けてくれるようにしたいのであれば、もっと具体的にすべきです:あなたの問題は何ですか?それは間違っていると思いますか?あなた自身で解決策を見つけるためにこれまでに何を試みましたか? – mac

答えて

0

ここでは、特定のWebサイトを検証する方法の質問に対する私の答えです。ツールは、基本的な文字列の方法、正規表現、またはlxmlのかbeautifulsoupような、より洗練されたツールで構成されたページのコンテキストをチェックするための

python check html valid

matchingSites = [] 
matchingSites.append(url) #Since you asked. :-p 
関連する問題