存在する分割文タグのフォーマット私は言葉に文章を分割するために、次の正規表現を使用し
import re
re.split("('?\w[\w']*(?:-\w+)*'?)","'cos I like ice-cream")
が得られます。しかし
['', "'cos", ' ', 'I', ' ', 'like', ' ', 'ice-cream', '!']
書式設定タグがテキストに表示されることがあり、私の正規表現は明らかにそれらを処理できません。
re.split("('?\w[\w']*(?:-\w+)*'?)","'cos I <i>like</i> ice-cream!")
ができます:
['', "'cos", ' ', 'I', ' <', 'i', '>', 'like', '</', 'i', '> ', 'ice-cream', '!']
私が好きだろうが:
['', "'cos", ' ', 'I', ' <i>', 'like', '</i> ', 'ice-cream', '!']
はどのようにあなたはこれを解決するに行きますか?
興味があるだけ、なぜあなたは、このような ' '''、または '」「'として、これらの空の文字列を保っていますか? – Quinn
@ccf奇数の要素は単語であり、偶数は偶数ではないことがわかっているからです。 – Baz