2016-10-25 7 views
4

現在、私はCountVectorizerを使用して機能を抽出しています。しかし、私はフィッティング中に見られない言葉を数える必要があります。CountVectorizerとOOV(Out-of-Vocabulary)トークン?

変換時には、デフォルト動作のCountVectorizerは、フィッティング中には観察されなかった単語を無視することです。しかし、私は何回このことが起こるかを数えておく必要があります!

どうすればいいですか?

ありがとうございます!

答えて

1

これを行うにはscikit-learnを組み込んだ方法はありません。これを行うには追加のコードを書く必要があります。ただし、これを実現するにはvocabulary_属性をCountVectorizerとすることができます。

  1. キャッシュ現在の語彙
  2. コールfit_transform
  3. 計算新しい語彙との差分と、キャッシュされた語彙
関連する問題