コード:これが何をやろうとしていることは、出力はレビューのリストの中の単語の頻度(pはレビューのリストであること私NLTKコードはほとんど私がそれを必要とするが、何しないのはかなり
def add_lexical_features(fdist, feature_vector):
for word, freq in fdist.items():
fname = "unigram:{0}".format(word)
if selected_features == None or fname in selected_features:
feature_vector[fname] = 1
if selected_features == None or fname in selected_features:
feature_vector[fname] = float(freq)/fdist.N()
print(feature_vector)
if __name__ == '__main__':
file_name = "restaurant-training.data"
p = process_reviews(file_name)
for i in range(0, len(p)):
print(p[i]+ "\n")
uni_dist = nltk.FreqDist(p[0])
feature_vector = {}
x = add_lexical_features(uni_dist, feature_vector)
です、p [0]は文字列)。そして、これは動作します....それは手紙ではなく、私の言葉で行います。
私はまだNLTKに新しいので、これは明らかかもしれませんが、実際にはそれを得ることはできません。
{「ユニグラム:N」:0.0783132530120482}たとえば
が、これは現在のようなものの大規模なリストを出力
をこれは結構です、と私はそれが右の数(時間数だと思いますnは全文に表示されます)しかし、私はそれを手紙ではなく言葉で表したいと思います。
今は、バイグラムでもやりたいと思っています。一度言葉で作業すれば、ダブルワードは簡単かもしれませんが、私はそれを見ていません。
ありがとうございました。
ビンゴ、ありがとう。分割してそれぞれ2つの単語のリストに分割できますか?私はnltkでそれを行う方法を知っているので、そうでなければ、問題はありません。 –