5
私はちょうどページのテキストの内容がほしいと思うので、私はできるだけ軽量になるように取り込みたい。 HTMLUnitがそのまま使用できるJavaScript、CSS、その他の外部コンテンツの解析や追加読み込みをすべて無効にすることはできますか? webclient.getOptions()
を使用し、上記HtmlUnit 2.13とするためJavaScriptとCSSを無視してHTMLUnitでページの純粋な生のHTMLを取得するにはどうすればよいですか?
WebClient webClient = new WebClient();
webClient.setCssEnabled(false);
webClient.setAppletEnabled(false);
webClient.setJavaScriptEnabled(false);
:
ありがとうございます。 'asXML()'と 'page.getWebResponse()。getContentAsString()'の違いは何ですか? – Thomas
'asXML()'はコードをフォーマットします(例えば、htmlタグが開かれるとスペースを追加します)。 'getContentAsString()'は、Webサーバーから返されるHTMLコードを正確に表示します。 –
HTMLUnit 2.13を起動するには、これらの "enable"メソッドを呼び出すwebClient.getOptions()。 – Paddy