私はテキストファイルから句読点のリストを削除しようとしていますが、ハイフンから区切られた単語には問題が1つしかありません。たとえば、「外傷後」という言葉がある場合、私は「ポストトラマ」を取得し、逆に「ポスト」「トラウマ」を得たいと考えています。Pythonはテキストファイルから句読点を削除します
私のコードは次のとおりです。
punct=['!', '#', '"', '%', '$', '&', ')', '(', '+', '*', '-']
with open(myFile, "r") as f:
text= f.read()
remove = '|'.join(REMOVE_LIST) #list of word to remove
regex = re.compile(r'('+remove+r')', flags=re.IGNORECASE)
out = regex.sub("", text)
delta= " ".join(out.split())
txt = "".join(c for c in delta if c not in punct)
は、それを解決する方法はありますか?
[a-zA-Z]。* - [az]を削除しない正規表現を使用する必要があります – kulssaka
試しに試してみてください。= regex.sub( ""、text )? – tnknepp