javascriptを大量に使用するhtmlドキュメントを解析するにはどうすればよいですか?私は静的なxml/htmlファイルを解析することができるPythonのいくつかのライブラリがあることを知っていると私は基本的にはhtml + javascriptを読むプログラムやライブラリ(またはfirefoxのプラグイン)を探して、javascriptビットを実行し、javascriptブラウザに表示されている場合は同じに見えます。簡単な例としてjavascriptコードを含むhtmlを解析する方法
<a href="javascript:web_link(34, true);">link</a>
は、例えば、適切な値でJavaScript関数のリターンを交換する必要があります
<a href="http://www.example.com">link</a>
より複雑な例は、保存されたfacebookのhtmlページで、多数のjavascriptコードが散在しています。
おそらく How to "execute" HTML+Javascript page with Node.js に関連していますが、実際にNode.jsとJSDOMが必要ですか?またわずかに関連しているのは Python library for rendering HTML and javascript ですが、私は純粋なhtml出力だけをレンダリングすることには興味がありません。
どちらのJavaScriptランタイムを取得し、それを使って何かを整理、コードを分析して、最終的に何が起こるかを検討します(強くサイトごとの構成)。 –
http://stackoverflow.com/questions/19465510/how-to-parse-a-webpage-that-includes-javascript?rq=1 – gliptak