の間でテキストを削除する方法ドキュメント内のhtmlタグ内にテキストがあります。テキストは、私が囲むタグと一緒に不要なテキストを削除どのようにこの< refと</ref >
I need this text <ref> Some unwanted text </ref> I need this text too
と
I need this text <ref Some random text /> I need this text too
ようになりますか?
この正規表現を使用しようとしました。しかし、それは動作していません。 Javaでこの方法を試し
<ref(.*?)>(.*?)</ref>
と
<ref(.*?)>
を助けていません。
regex = "<ref(.*?)>(.*?)</ref>";
p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE | Pattern.DOTALL | Pattern.MULTILINE);
m = p.matcher(s);
while(m.find()){
m.replaceAll(" ");
}
任意のアイデアはどのように私は解決策を得るのですか?
実際のHTMLタグが、私は、XMLタグ内のHTML形式のデータを持っていることを追加するために逃した< –
のようなエンティティの識別子を使用しません。 xmlタグを解析し、htmlデータを取得しました。このうち、不要なhtmlタグを削除する必要があります。これは、HTMLデータタグが<および> –