Python。大規模なデータセットから絵文字や句読点を効率的に削除する

私はpandasデータフレームに200k行のメッセージがあります。平均して各メッセージには、このような絵文字を振りかざした230文字が含まれています。Python。大規模なデータセットから絵文字や句読点を効率的に削除する

は、今私は、下限と上限英語とロシア語の文字と、これらのシンボル以外のすべてをフィルタリングしたい：#@/:%.,_-

それを行うの最も効率的な方法だろうか？

2017-11-23 Superbman

「これを行う最も効率的な方法は何ですか？」 →これは数十MBのデータです。なぜそれは重要ですか？ – Veedrac

str.replaceと^を逆に使用してください。

df['col'] = df['col'].str.replace('[^\w\s#@/:%.,_-]', '', flags=re.UNICODE)

2017-11-23 23:54:29

ロシア語の文字を残しておく必要があります – Superbman

@スパーブマン編集、現在動作しているか確認してください –

です。ありがとう – Superbman

答えて