Pythonで正規表現を使用して句読点/数字を削除するコードがありましたが、コードを少し変更して停止リストが機能するようにしなければなりませんでした。とにかく、今では句読点は削除されていません。そして、率直に言って、私は理由については困惑しています。それは働いていない理由について文章の問題から句読点/数字を削除する
import re
import nltk
# Quran subset
filename = raw_input('Enter name of file to convert to ARFF with extension, eg. name.txt: ')
# create list of lower case words
word_list = re.split('\s+', file(filename).read().lower())
print 'Words in text:', len(word_list)
# punctuation and numbers to be removed
punctuation = re.compile(r'[-.?!,":;()|0-9]')
for word in word_list:
word = punctuation.sub("", word)
print word_list
任意のポインタは素晴らしいことだ、私はそれはおそらく途方もなく愚かなものですので、パイソンには専門家です。ありがとう。