MozReplとMechanize :: FirefoxでレンダリングされたHTMLを取得する

私は、PerlのWWW :: Mechanize :: Firefoxと一緒に使用されているMozReplの驚異を紹介し、GWTのクロール方法を理解しようとしていましたページ（例：https://www.google.com/offers/home#!details/4bc7fd6bd3feb311/XYW81TXGLA88TR42）MozReplとMechanize :: FirefoxでレンダリングされたHTMLを取得する

私が実際に望むのは、実際のHTMLではなく、レンダリングされたHTMLです。どのように私はこれを得るだろうの例を本当に感謝します。

出典

2011-10-23 Vijay Boyapati

$ mech-> xpath（ '// * [@ id = "goh-content-container"]、one => 1） - >を使って、 {innerHTML};不思議なことに、これは一貫して機能していないようです。場合によっては何も出力せず、HTMLを出力することもあります。それが一貫して出力を提供していない理由についてのアイデア？ –

詳細情報：単一のクローラを実行すると一貫して出力されるように見えますが、複数のMozReplとやりとりしていると、出力が一貫して生成されないようです。 Ubuntu 11.04でFirefox 7.0.1を実行する –

私は仕事をやるために素晴らしいPhantomJSを使うことに決めました。 Phantomをサーバー側のツールとして使用して、動的なWebページのレンダリングされたHTMLを取得することは非常に簡単です。

出典

2012-10-10 21:36:24

MozReplとMechanize :: FirefoxでレンダリングされたHTMLを取得する

答えて

関連する問題