私はpandasデータフレームに200k行のメッセージがあります。平均して各メッセージには、このような絵文字を振りかざした230文字が含まれています。Python。大規模なデータセットから絵文字や句読点を効率的に削除する
は、今私は、下限と上限英語とロシア語の文字と、これらのシンボル以外のすべてをフィルタリングしたい:#@/:%.,_-
それを行うの最も効率的な方法だろうか?
私はpandasデータフレームに200k行のメッセージがあります。平均して各メッセージには、このような絵文字を振りかざした230文字が含まれています。Python。大規模なデータセットから絵文字や句読点を効率的に削除する
は、今私は、下限と上限英語とロシア語の文字と、これらのシンボル以外のすべてをフィルタリングしたい:#@/:%.,_-
それを行うの最も効率的な方法だろうか?
「これを行う最も効率的な方法は何ですか?」 →これは数十MBのデータです。なぜそれは重要ですか? – Veedrac