2012-05-05 10 views

答えて

12

TFは IDF用語頻度 ある用語を含む文書の数で文書の総数を除算し、その商の対数を取ることによって得られる逆ドキュメント頻度です。効果を生じる

が同じ茎から派生するすべての単語のグループ化された(例:演奏、演劇、..)を周波数がステムない単語を使用して計算されるため、このグループ分けは、のために このステムの発生が増加しますたとえば、2つのドキュメントがある場合: 最初の1つに '再生'が2回、 '再生'された回数が5回あり、 、2回目のドキュメントに '再生'が3回、 '再生'された時間が1回あります ' 「遊び」という言葉が最初に出現しますが、起訴した場合は、起訴後に両方の言葉が「再生」され、最初の文書には最初にの茎が含まれていますを7回プレイし、2番目の文書にのステムを4回演奏します。

ストップワード除去に関しては、すべての文書で頻繁に見つかっており、いずれのキーワードでも考慮されていないため、シーンなしで高い周波数を持つことになります。

関連する問題