正規表現may have side-effectsです。それでは、文書内のすべてのHTMLタグの開始位置と終了位置を取得するのに好ましい方法は何ですか? JsoupやNekoHTMLなどのライブラリの解析では、この情報を提供していないようですが、XMLLocatorは現在のドキュメントイベントの末尾しか提供していないため、適用されないようです。文書内のすべてのHTMLタグの文字位置を取得するための推奨方法
私は、タグのタイプや名前、その属性、またはテキストから何かを取り除くことには興味がありません。私はちょうど彼らがどこで始まりどこで終わるかを知りたい。
この質問の目的のために、ソースHTMLが有効であると仮定することができます。
は、それが有効なHTML最初 –
だことを確認してください。 – cqcallaw
あなたの質問は終わりの手段のように聞こえる。どのようなビジネス上の問題を解決しようとしていますか? – Bohemian