NLTKを使用して、各行がドキュメントと見なされるテキストファイルでクラスタリングを実行しています。したがって、たとえば、私のテキストファイルは次のようなものです:指死パンチ属しUnicodeDecodeError: 'ascii'コーデックは、位置13のバイト0xe2をデコードできません。序数が範囲外です。(128)
性急
マイク性急な壁が
イエーガーマイスターのルールをエリコ
バンドは今イエーガーマイスターの段階を実行する
アプローチ
に従うルール私が実行しようとしているデモコードは次のとおりです:https://gist.github.com/xim/1279283
私が受け取るエラーは次のとおりです:
Traceback (most recent call last):
File "cluster_example.py", line 40, in
words = get_words(job_titles)
File "cluster_example.py", line 20, in get_words
words.add(normalize_word(word))
File "", line 1, in
File "/usr/local/lib/python2.7/dist-packages/nltk/decorators.py", line 183, in memoize
result = func(*args)
File "cluster_example.py", line 14, in normalize_word
return stemmer_func(word.lower())
File "/usr/local/lib/python2.7/dist-packages/nltk/stem/snowball.py", line 694, in stem
word = (word.replace(u"\u2019", u"\x27")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 13: ordinal not in range(128)
ここで何が起こっているか
この行のコードを実行していると( 'utf-8')。strip()。lower()。split()も同じエラーです。 .deocode( 'utf-8')を追加しました –