私はウェブページ内のリンクを読む必要があるwebCrawlerを構築しています。そのために私はpythonのurllib2ライブラリを使ってウェブサイトを開いたり読んだりしています。HTMLコンテンツを読むことができません
データを取得できないウェブサイトが見つかりました。 URLは上記のコード、私は上から取得する私は、ブラウザで開く場合、私は、ウェブサイトから取得したコンテンツとコンテンツを実行することにより、「http://www.biography.com/people/michael-jordan-9358066」
私のコード、
import urllib2
response = urllib2.urlopen("http://www.biography.com/people/michael-jordan-9358066")
print response.read()
ですコードは非常に異なります。上記のコードのコンテンツにはデータは含まれていません。
ウェブページの読み込みが遅れている可能性があるので、遅れを導入しました。遅れても応答は同じです。
response = urllib2.urlopen("http://www.biography.com/people/michael-jordan-9358066")
time.sleep(20)
print response.read()
ウェブページはブラウザで完全に正常に開きます。
しかし、上記のコードは、Wikipediaや他のいくつかのWebサイトを読み込むのに問題ありません。 私はこの奇妙な動作の背後にある理由を見つけることができません。助けてください、ありがとうございます。
訪問したサイトがhttpヘッダーのUser-Agentを検出したようです。その場合は、User-Agentを設定すると動作します。 – WKPlus
私はおそらくすべてのデータがjsによって読み込まれると思うので、htmlページでコンテンツを見つけることができません。 –
@WKPlus:ユーザーエージェントをfirefoxとして追加しようとしましたが、応答は同じです。 – wh0