2017-11-23 3 views
0

私はpandasデータフレームに200k行のメッセージがあります。平均して各メッセージには、このような絵文字を振りかざした230文字が含まれています。Python。大規模なデータセットから絵文字や句読点を効率的に削除する

は、今私は、下限と上限英語とロシア語の文字と、これらのシンボル以外のすべてをフィルタリングしたい:#@/:%.,_-

それを行うの最も効率的な方法だろうか?

+0

「これを行う最も効率的な方法は何ですか?」 →これは数十MBのデータです。なぜそれは重要ですか? – Veedrac

答えて

2

str.replace^を逆に使用してください。

df['col'] = df['col'].str.replace('[^\w\s#@/:%.,_-]', '', flags=re.UNICODE) 
+0

ロシア語の文字を残しておく必要があります – Superbman

+0

@スパーブマン編集、現在動作しているか確認してください –

+0

です。ありがとう – Superbman

関連する問題