2016-12-05 2 views
0

私は受け取っているHTMLソースからすべてのタグを一つずつ分けようとしています。RegExを使用してHTMLソースを細かく分解する

これは、私が受け取っているコードの大部分です。人間の分析のために、それをより「読みやすく」しようとしています。 はこれまでのところ私は、この正規表現コードにした。

RegEx(<\w*>.*<\/\w*>) 

しかし、これは</html>まで!DOCTYPEタグと実行」のbegginingを取得します。

私がしようとしているのは、タイプに関係なく、個々のタグを個別に選択することです。
また、このRegExをJavaScriptで実行しています。

任意の提案は非常に当面の問題を解決する

答えて

2

は簡単です:)歓迎されています。あなたはワイルドカードを作る必要がありますlazy instead of greedy。あなたは(することができますように試合のように少しそれが以前のものと一致したが、それでもあなたは次の事を一致させることができます)*?に(あなたはそれが以前のものと一致することができますすべてに一致)

*を変更したい。すなわち

...しかし、属性値、スクリプト要素、スタイル要素などに>があると、コードが破損します。

HTMLを解析するのは簡単ではありません。 Regular expressions are not a good tool for it.代わりに既存のライブラリを使用してください。

+0

今回私は、さまざまな方法で問題を解決するように考え方を変えました。あなたが推薦するように、素晴らしいライブラリを見つけました。 Jsoup、と思うnice.Thoughを使用して、チップを '? '。ありがとうございます:D –

関連する問題