私はこのタグ付きテキスト(そのように書式設定された)をとり、各文のposタグDTの平均頻度を探したいと思います。例。 DTは文1では1/3語、文2では1/3語である。次に、これらを追加して、テキストの文章数(この例では2)で割ります。これにより、1文につきDTの平均的な出現が得られます。平均POS-TAG頻度
from collections import Counter
import nltk
tagged_text = [('A', 'DT'), ('hairy', 'NNS'), ('dog', 'NN')]
[('The', 'DT'), ('mischevious', 'NNS'), ('elephant', 'NN')]
for eachSentence in tagged_text:
Counter(tag for word,tag in tagged)/len(eachsentence.split())
total = sum(counts.values())
float(average) = sum(counts.values())/len(tagged_text.sents())
print(float(average))
私にとって大きな問題は、私は(私はそれが何であるかを定義する方法がわからない)の周りを取得する方法はないないeachSentenceの一部です。私はこのコードを、同じ形式の何百もの文に適用できるようにしたい。私はコードに多くの問題があることを知っています。誰かがそれらを修正してくれれば、私は非常に感謝します。
あなたが何を求めているのか分かりません。 'eachSentence'変数に何百もの文をどのように割り当てることができるか知りたいですか? – oschlueter