私は、クリーンアップしようとしている言葉のリストがたくさんあります。これらの言葉の多くは、毎回少しずつ異なって書かれているようです。私はそれらを正規化したいと思います。ただsuperintendent
一致する単語がある場合は文字列全体を置換してください
と
list = ["resident super", "super live in", "on site superintendent in building", "livein super", "residential super", "superintendent lives in", "on-site super"...]
私は
for item in list:
re.sub("resident super|super live in|on site superintendent in building| livein super|residential super|superintendent lives in|on-site super",
"superintendent", list)
でこれを行うことができます考え出したが、私はいくつかのエントリを欠場する確信している:例えば私は、次の単語を交換したいと思います。すべてのエントリには単語super
が含まれていますが、アイテム全体を目的の単語に置き換える正規表現ルールを使用する方法はありますか?
問題は交換したいということですスペースで区切られた単語のリスト。だからあなたは網羅的でなければならない、あるいは正規表現は単語の置き換えをいつ開始/停止するかを知らないだろう。例えば:「私は人生のスーパーです」:どこで交換をやり始めますか? –
あなたの "単語"が行ごとに提供されている場合は、\ bsuper \ bと単純に一致し、文字列全体を置き換えることができます。 –
私は 'for'ループを使ってリストの各メンバーを反復することを考えていました。そのメンバーが「super」という単語を含む場合、メンバー全体を '監督者 'に置き換える必要があります。 – Lukasz