2012-04-16 15 views
1

私はJSoup 1.6.2を使用しています。私はこのHTMLを持っています...この形式のHTMLを整形式のXHTMLに変える方法はありますか?

<a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;""> 

タグの終わりの直前に迷いの引用があります。私はJSoupが何らかの形でそれをきれいにすることを望んでいました。私は結果はまだ整形式ではありません

<a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;" "=""> 

ある

final org.jsoup.nodes.Document doc = Jsoup.parse(html); 

...試してみて、右実行することにより、すべてのものを作ります。ひどく形成されたHTMlをJSoupで整形する方法がありますか?それを除けば、上の例の仕事をすることができる別のHTMLの整頓されたアッパーがありますが、結果として得られるHTMLにStringまたはorg.w3c.dom.Documentオブジェクトとしてアクセスすることもできますか?

答えて

0

this回答に基づいて、私はあなたが「きちんと」HTMLソースのJTidyを使用することをお勧めします。

+0

ありがとうございました。 JTidyは私の状況で働いています。私は彼らのウェブサイトを見ていましたが、最後のリリースは2007年のようです。プロジェクトが終了したということですか? – Dave

+0

あなたが正しいかのように見えます – vacuum

0

これを修正するために正規表現を使用するだけでいいですか?私はJavaでそれを行う方法がわからないんだけど、JavaScriptで、このようなものになるだろう:

var str = '<a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;"">'; 

var newStr = str.replace(/""/,'"'); 
//<a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;"> 
関連する問題