テキストから絵文字を削除しようとしていますが、別の質問からこの正規表現を見ましたが、絵文字は削除されません。あなたが私が間違ってやっていることを知らせることができますか、文字列からemojisを削除するためのより良い正規表現があるかどうかを教えてください。Pythonの絵文字を削除するための正規表現
import re
myre = re.compile(u'('
u'\ud83c[\udf00-\udfff]|'
u'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
u'[\u2600-\u26FF\u2700-\u27BF])+',
re.UNICODE)
def clean(inputFile,outputFile):
with open(inputFile, 'r') as original,open(outputFile, 'w+') as out:
for line in original:
line=myre.sub('', line)
入力ファイルを提供できますか? – ferkulat
テキストはプレーンなASCIIコンテンツですか? – Saleem
こんにちは@ferkulatテキストはutf-8のメモ帳txtファイルです。ここにいくつかのサンプルデータが添付されています。 http://pastebin.com/uYUNk9R1 – Sorry