私は受け取っているHTMLソースからすべてのタグを一つずつ分けようとしています。RegExを使用してHTMLソースを細かく分解する
これは、私が受け取っているコードの大部分です。人間の分析のために、それをより「読みやすく」しようとしています。 はこれまでのところ私は、この正規表現コードにした。
RegEx(<\w*>.*<\/\w*>)
しかし、これは</html>
まで!DOCTYPE
タグと実行」のbegginingを取得します。
私がしようとしているのは、タイプに関係なく、個々のタグを個別に選択することです。
また、このRegExをJavaScriptで実行しています。
任意の提案は非常に当面の問題を解決する
今回私は、さまざまな方法で問題を解決するように考え方を変えました。あなたが推薦するように、素晴らしいライブラリを見つけました。 Jsoup、と思うnice.Thoughを使用して、チップを '? '。ありがとうございます:D –