「ö」、「ü」などの文字を含むutf-8エンコーディングを使用するテキストファイルがあります。これらのファイルのテキスト形式を解析したいと思いますが、正しく機能します。私は、標準のNLTKトークナイザを使用する場合:nltkを使用してユニコードをトークン化する
f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = nltk.word_tokenize(items)
出力:[u'\ufeff', u'm', u'\xfc', u'sli', u'p', u'\xf6', u'\xf6', u'k', u'r', u'\xe4', u'\xe4', u'k']
プンクトのトークナイザは良くやっているようだ:
f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = PunktWordTokenizer().tokenize(items)
は出力:[u'\ufeffm\xfcsli', u'p\xf6\xf6k', u'r\xe4\xe4k']
ありまだ'\ ufeff'私は理解できない最初のトークンの前に(私はそれを削除することはできません)。私は間違って何をしていますか?ヘルプは非常に感謝します。
ありがとう。あなたのコードは\ uFEFFを削除するトリックを行います – root
@ user1199589よろしくお願いします。お役に立てて嬉しいです。 –
私も助けてくれました。どうもありがとう! – Pitarou