2017-01-31 7 views
0

これは複数の質問ですので、私は謝罪します。私はairportname=XXXを持っていないリンクを除外したいPythonは文字列とリンクし、大文字でリンクしています

  1. :私は、Webページからリンクを抽出するためにBeautifulSoupを使用しています

    は、ここに

    Please see image for code and results

    質問コードされ、その結果

  2. 私は、airportname=XXXのリンクをたどって、次のページのテキストの文字列。

ご理解とご協力をいただきありがとうございます。最初の部分については

+3

コードの画像を使用しないでください。質問にコードを挿入してください。 –

+0

「ヘルプ」を使用しないように約30分間試しました。申し訳ありません – Cambo415

答えて

0

あなたは、このタスクを完了するために第二の部分については

for url in results: 
     #hit the url and get the response as text and just search the text for the query string as in part 1 
+0

こんにちはMithilesh、あなたの迅速な対応に感謝します。つまり、XXXはリンクごとに異なります(約100個あります)。これは、米国の3桁の空港コードの場合です。例えば。ダラスはDFW、ロサンゼルスはLAXなど – Cambo415

+0

スニペットを更新 –

0

を正規表現

import re 

XXX=[] 
    for result in results: 
     match = re.match(r'(airportname=\w\w\w)', result) 
     if match: 
      XXX.append(match.group(1)) 

を使用することができ、実際にはURLが必要であろう。リンクが適しているかどうかを確認するには、次のアプローチを使用することができます。

from bs4 import BeautifulSoup 
import re 

html_page = urllib2.urlopen('http://www.website.com/airports') 

soup = BeautifulSoup(html_page) 

for link in soup.findAll('a', href=True): 
    href = link['href'] 

    if re.search('airportname=\w\w\w$', href): 
     print href 

次は、hrefあなたが得るに基づいて完全なURLを作成する必要があります。

関連する問題