CountVectorizerとOOV（Out-of-Vocabulary）トークン？

現在、私はCountVectorizerを使用して機能を抽出しています。しかし、私はフィッティング中に見られない言葉を数える必要があります。CountVectorizerとOOV（Out-of-Vocabulary）トークン？

変換時には、デフォルト動作のCountVectorizerは、フィッティング中には観察されなかった単語を無視することです。しかし、私は何回このことが起こるかを数えておく必要があります！

どうすればいいですか？

ありがとうございます！

2016-10-25 Jose G

これを行うにはscikit-learnを組み込んだ方法はありません。これを行うには追加のコードを書く必要があります。ただし、これを実現するにはvocabulary_属性をCountVectorizerとすることができます。

2018-02-23 11:56:28 vumaasha

答えて