2010-12-16 9 views
0

私はhtmlで以下の文字列を持っています。私はDomツリーを構築し、名前の値のペアを取得したいと思います。どのように私はhtmlパーサーまたはxmlパーサーまたはREGEXPを使用してこれを行うことができます。任意のコードスニペットが便利です。おかげHTMLにある以下の文字列を解析し、JavaでDOMツリーを構築するには?

 


<$$TagStarts> 

<==0>Name0</==0><##0>Value0</##0> 
<==1>Name1</==1><##1>Value1</##1> 
<==2>Name2</==2><##2>Value2</##2> 
<==3>Name3</==3><##3>Value3</##3> 
<==4>Name4</==4><##4>Value4</##4> 
<==5>Name5</==5><##5>Value5</##5> 

</$$TagStarts> 

 
+0

タグ名を変更できますか?彼らは有効なHTMLではありませんし、それらからDOMを構築するのは難しいでしょう –

+0

こんにちは、私はサービスからそれを取得しているようにタグ名を変更することはできません。 – techiepark

答えて

3

...

次のHTMLパーサのいずれかを使用してみてください...タグ名だけでサンプルのためのものであると仮定すると、....、あなたはいくつかの意味のあるタグ名を持つことになります

http://home.ccil.org/~cowan/XML/tagsoup/

http://nekohtml.sourceforge.net/

http://jtidy.sourceforge.net/

彼らはあなたにW3準拠のドキュメントオブジェクトを与えます。これ以降は、getElementsByTagNameまたはgetElementByIdのゲームか、XPathまたはXqueryを使用してDOMから要素を取得します。

次を使用することができそうでなければ...彼らは独自のドキュメントオブジェクトの実装を持っている...

http://htmlcleaner.sourceforge.net/

http://jsoup.org/ [それはまた、いくつかの基本的なXPathのサポートを持っている] [これはquery APIのようなjqueryのを持っています]

ADD チェックこの... http://jsoup.org/cookbook/extracting-data/selector-syntax

私はお勧めします... JSoupまたはNekohtmlのいずれか

関連する問題