NLTKムービーレビューコーパス内のタグ

movie_reviewコーパスで最も一般的な15のコードを出力するには、次のコードがあります。NLTKムービーレビューコーパス内のタグ

import nltk 
import random 
from nltk.corpus import movie_reviews 

documents =[] 

for category in movie_reviews.categories(): 
    for fileid in movie_reviews.fileids(category): 
     documents.append((list(movie_reviews.words(fileid)), category)) 

random.shuffle(documents) 

all_words =[] 
for w in movie_reviews.words(): 
    all_words.append(w.lower()) 

all_words =nltk.FreqDist(all_words) 
print(all_words.most_common(15))

私は次のような出力が得られます。

[(u',', 77717), (u'the', 76529), (u'.', 65876), (u'a', 38106), (u'and', 35576), (u'of', 34123), (u'to', 31937), (u"'", 30585), (u'is', 25195), (u'in', 21822), (u's', 18513), (u'"', 17612), (u'it', 16107), (u'that', 15924), (u'-', 15595)]

なぜ手紙は 'U' のタグで来ているのですか？どうすれば解決できますか？

出典

2017-08-27 Amit Naik

unicode strings in Python 2.7、NLTKに固有のものではありません。

出典

2017-08-27 18:57:08

私は文字とそれが発生する方法はありますか？ –

printにペアのリストを渡しているため、引用符、コンマ、および（Python 2.7の）uという接頭辞が表示されています。個々の文字列の印刷は、期待通りに機能します。例：

for word, cnt in all_words.most_common(15): 
    print word, cnt

出典

2017-08-27 21:13:24 alexis

NLTKムービーレビューコーパス内のタグ

答えて

関連する問題