2008-08-25 8 views

答えて

12

NekoHTMLTagSoupJTidyは、HTMLを解析してXPathなどのXMLツールで処理できるようにします。

+0

XPathはHTML解析の方法です。形式の悪いHTMLの場合でも正規表現が失敗する場合に役立ちます。 –

7

私はデッドシンプルなHTML Parserを試しました。

+0

私はプロジェクトでHTMLパーサを使用していましたが、それはちょうど期待通りに機能しました –

+1

しかし、利用可能なチュートリアルはあまりありません... – Lily

+0

JavaScriptのスニペット(および要素の属性) "抽出。また、不正な形式のHTMLが解析処理全体を失敗させる場合もあります。だから私は自分のプロジェクトのhtmlparserライブラリを少し上手くいくものに置き換えることを考えています。 – benjismith

1

HTMLを完全に解析する必要がありますか?内容(特定のタグ/パラメータ)内の特定の値を探しているだけなら、単純な正規表現で十分であり、非常に速くなる可能性があります。

関連する問題