私は多くの単語のいくつかのスペルバリエーションを含むテキストファイルを持っています:Python:テキストファイルを正規化する
identification ... ID .. identity...contract.... contr.... contractor...medicine...pills..tables
だから私は、言葉の同義語が含まれており、主要語で、すべての変種を交換したい同義語のテキストファイルを持っていると思います。基本的には、入力ファイルを正規化します。例えば、私の同義語リストファイルは
identification = ID identify
contracting = contract contractor contractors contra......
word3 = word3_1 word3_2 word3_3 ..... word3_n
.
.
.
.
medicine = pills tables drugs...
のようになりますについては
私は最後の出力ファイルは、私はPythonでプログラミングについて得にはどうすればよい
identification ... identification .. identification...contractor.... contractor.... contractor...medicine...medicine..medicine
見えるようにしたいですか?
ありがとうございました!
空白区切りでは、「あなたのIDを表示する」のように、末尾に句読点が追加されます。空白文字で分割した場合、 "ID"に変換するきれいな "ID"文字列は得られません。大文字/小文字も処理する必要があります。 – PaulMcG
@Paul McGuire:コメントをいただきありがとうございます。単語から句読点を区切るために '\ s + | \ S +'を '\ w + | \ W +'に変更し、大文字小文字を扱うコードを追加しました。 @Pradeep:これらの変更は起こりそうもないかもしれませんが、同義語リストの句読点付きの単語(「can't」のような)はもはやマッチしなくなり、大文字と小文字の区別がついた単語(ポーランド語は国籍ですが、 'は動詞です)が同じ同義語に置き換えられる可能性があります。これらの問題は、より多くのコードで処理することができますが、それがあなたの状況に影響を及ぼさない限り、そうしないでください。 – unutbu
Paulありがとうございます。あなたのコードは意図どおりに動作します.. – Zenvega