NLTKを使用してN個のテキストを分析するタスクがあります。コンピュータは非常に多くのデータを処理することが困難であるように、各テキストは、長い100kの言葉よりも、私はこのようなサブリストにトークン化した後、それぞれのテキストを分割することを決めた理由です:Pythonを使用したN個のリストの特定の項目の合計
chunks = [tokens_words[x:x+1000] for x in range (0,len(tokens_words), 1000)]
おそらく、それはうまく動作します。
次に、たとえば各テキストの名詞の数を数える必要があります。私はこれが好きです:
for chunk in chunks:
for key in tagged.keys():
for noun_tag in noun_tags:
if tagged[key] == noun_tag:
noun += 1
totalNoun.append(noun)
私はsum()
を使用し、パーセンテージを見つけます。私もtotalNoun += noun
を試しましたが、両方の方法で私は3500%または2498%のようなsmthを受け取ります。
どうすればいいですか?
詳細が必要です。あなたは 'sum()'を何使っていますか?どのようにパーセントを見つけるのですか?これはPythonよりも算術的なエラーのように思えますが、実際のところ詳細がないと確信する方法はありません。 –
あなたはあなたの 'print()'や 'write()'に**%の書式**( '{:.2%}'のようなもの)を使っていますが、計算。したがって、100 *を削除してください。 –
1つのチャンクに対して正しい名詞の数が得られますか? –