HtmlUnitを使用して、Htmlページの処理を行っています。私の問題は、空白を正しく維持しているようには見えないということです。HtmlUnit処理空白
元のHTMLは次のようになります。
としてレンダリング<div><cite>www.<b>example</b>.com</cite>
:
WWW。 例 .com
domの他の部分を解析するためにhtml単位を使用した後、getXml()を使用してhtmlを出力します。こうすることで、HTMLがきれいに印刷されます:
WWW:
<div>
<cite>
www.
<b>
example
</b>
.com
</cite>
これはとしてレンダリング終わります。 例 .com
例の前後に余分なスペースがあることに注意してください。
私は、結果としてきれいに印刷されたdomから空白を切り取ってみましたが、あなたが実際にそれらを必要とする場所でスペースを失いました。
生成されたdomを実行すると、HtmlUnitは、作成時にすべてのDomTextノードをトリミングするように見えるため、スペース情報は失われます。
この情報を追跡するためにHtmlUnitを構成する方法はありますか?または元のhtmlをよりよく維持する代替手段ですか?私はちょうどXPathを介してhtmlの余分な部分にできるようにする必要があります。私は、これは元のHTMLを返すべきだと思います
がpretty-印刷用スペースやタブをしていますか?タブの場合は、出力マークアップ内のすべての改行とタブを置き換えることはできませんでしたが、スペースだけを残していましたか? – aroth
それは良い考えです。スペースはまったく維持されていないように見えますが、そのすべてがインデントに従って整列しています。 –