2016-04-20 8 views
1

私はwww.stevens.edu(それは割り当てです)からユニークなWebリンクを抽出するプログラムを書いていますが、問題が1つあります。私のプログラムは動作しており、www.stevens.eduを除くすべてのサイトのリンクを抽出していますが、出力は「none」となっています。私はこれと非常にイライラしていますし、テストのために、このURLを使用していますhelp.i必要が - http://www.stevens.edu/Pythonを使ってユニークなWebリンクを見つける

import urllib 
from bs4 import BeautifulSoup as bs 

url = raw_input('enter - ') 

html = urllib.urlopen(url).read() 

soup = bs (html) 

tags = soup ('a') 

for tag in tags: 
    print tag.get('href',None) 

ここに私を導いてください、それはwww.stevens.eduで作業していない理由を私は知っていますか?

答えて

3

サイトはUser-Agentヘッダーをチェックし、異なるHTMLベースを返します。

あなたは適切なHTMLを取得するためにUser-Agentヘッダーを設定する必要があります。

import urllib 
import urllib2 
from bs4 import BeautifulSoup as bs 

url = raw_input('enter - ') 
req = urllib2.Request(url, headers={'User-Agent': 'Mozilla/5.0'}) # <-- 
html = urllib2.urlopen(req).read() 
soup = bs(html) 
tags = soup('a') 
for tag in tags: 
    print tag.get('href', None) 
関連する問題