2016-04-08 140 views
0

テキストから絵文字を削除しようとしていますが、別の質問からこの正規表現を見ましたが、絵文字は削除されません。あなたが私が間違ってやっていることを知らせることができますか、文字列からemojisを削除するためのより良い正規表現があるかどうかを教えてください。Pythonの絵文字を削除するための正規表現

import re 
myre = re.compile(u'(' 
u'\ud83c[\udf00-\udfff]|' 
u'\ud83d[\udc00-\ude4f\ude80-\udeff]|' 
u'[\u2600-\u26FF\u2700-\u27BF])+', 
re.UNICODE) 

def clean(inputFile,outputFile): 
    with open(inputFile, 'r') as original,open(outputFile, 'w+') as out: 
     for line in original: 
      line=myre.sub('', line) 
+0

入力ファイルを提供できますか? – ferkulat

+0

テキストはプレーンなASCIIコンテンツですか? – Saleem

+0

こんにちは@ferkulatテキストはutf-8のメモ帳txtファイルです。ここにいくつかのサンプルデータが添付されています。 http://pastebin.com/uYUNk9R1 – Sorry

答えて

1

これはなんですか?

import re 
myre = re.compile('(' 
'\ud83c[\udf00-\udfff]|' 
'\ud83d[\udc00-\ude4f\ude80-\udeff]|' 
'[\u2600-\u26FF\u2700-\u27BF])+'.decode('unicode_escape'), 
re.UNICODE) 

def clean(inputFile,outputFile): 
    with open(inputFile, 'r') as original,open(outputFile, 'w+') as out: 
     for line in original: 
      line = myre.sub('', line.decode('utf-8')) 
      print(line) 
+0

これは私がline.decode( 'utf-8')を削除したときにうまくいった、ありがとう@サミュエル! – Sorry

+0

よろしくお願いします。 –

+0

それは動作を停止した、私はなぜ、あなたはこのテキストpastebin.com/uYUNk9R1上のコードをノートパッドの文書で試してみることはできません? – Sorry

関連する問題