2017-11-14 7 views
0

コードのこの作品にそれがあるべきすべての要素を取得していない要求を適切Pythonはモジュールが

from lxml import html 
import requests 
page = requests.get(c) 
tree = html.fromstring(page.content) 
link = tree.xpath('//script/text()') 

に動作します。しかし、それは全体のコンテンツを取得しません。それは隠されているかのように。

私は私が次のものがこの

print len(link) 

であり、それは私が、文字列cであるページに行く9(9)

を返す、ため、このような場合は見ることができます上記のコードで説明します。私はmozillaでソース(view-source :)に行きます。そして、私はctr + fを打ちました。そして、最後にスペースを入れて<scriptと書いています。

それは私に33のマッチを返します。私が望むものは取り出すことができません。

何が起こっているか理解できません。私はブロックされていますか?どのように私はこれをバイパスし、リクエストモジュールにmozillaが見ているものを見せることができますか?

+0

'requests'は、javascriptエンジンにDOM表現を埋め込みません。あなたのページ内の何かがjs browser-sideによって生成された場合(他のスクリプトを動的にインクルードする - これは一般的なブラウザ側のパターンです)、 'request'の応答では明らかに見つかりません。 –

+0

私が間違っていると私は失礼ですが、私はちょうどhtmlタグが欲しいです。私はその内容を望んでいない。スクリプト内のコンテンツは、firefoxがjavascript関数に実行してコンテンツを生成できる基本64文字列です。私はこれについて気にしない。私はレンダリングされたhtmlを望んでいない、私は未レンダリングhtmlが欲しい。レンダリングされたjavacrpitについて話していますか?私はそれを自分で表現することができます。しかし、私はそれを取得することはできません... '