私は与えられたテキスト(それはテキストの長さの関数として語彙サイズの成長を示している)のヒープの法則をプロットしようとしています。つまり、各トークンについて、テキストの長さとトークンサイズまでのトークンが必要ですHeaps law in Python
私はすでにテキストをトークン化していますが、すべての単語を繰り返し処理する方法がわからないため固執していますテキスト
tokens=nltk.wordpunct_tokenize(text)
it=len(tokens)
i=1
for word in tokens:
print len(tokens), len(set(tokens))
i=i+1
if i>it:
break
私は基本的にテキストが1トークンだけ拡大するように各繰り返しを行う必要があります。 ご協力いただきありがとうございます!