2011-10-23 12 views
9

私は、PerlのWWW :: Mechanize :: Firefoxと一緒に使用されているMozReplの驚異を紹介し、GWTのクロール方法を理解しようとしていましたページ(例:https://www.google.com/offers/home#!details/4bc7fd6bd3feb311/XYW81TXGLA88TR42MozReplとMechanize :: FirefoxでレンダリングされたHTMLを取得する

私が実際に望むのは、実際のHTMLではなく、レンダリングされたHTMLです。どのように私はこれを得るだろうの例を本当に感謝します。

+0

$ mech-> xpath( '// * [@ id = "goh-content-container"]、one => 1) - >を使って、 {innerHTML};不思議なことに、これは一貫して機能していないようです。場合によっては何も出力せず、HTMLを出力することもあります。それが一貫して出力を提供していない理由についてのアイデア? –

+0

詳細情報:単一のクローラを実行すると一貫して出力されるように見えますが、複数のMozReplとやりとりしていると、出力が一貫して生成されないようです。 Ubuntu 11.04でFirefox 7.0.1を実行する –

答えて

2

私は仕事をやるために素晴らしいPhantomJSを使うことに決めました。 Phantomをサーバー側のツールとして使用して、動的なWebページのレンダリングされたHTMLを取得することは非常に簡単です。

関連する問題