私はTf-idfを使って単語の辞書を構築しようとしています。しかし、直感的には意味をなさない。用語抽出のためのTf-idfの直観
Tf-Idfの逆文書頻度(Idf)部分が、全コーパスに対する用語の関連性を計算する場合、重要な単語のいくつかは関連性が低い可能性があることを意味します。
法的文書のコーパスを見ると、すべての文書に「ライセンス」または「法的」という用語が表示されることがあります。 Idfのために、これらの用語のスコアは非常に低くなります。しかし、直感的に言えば、これらの用語は明らかに法的用語であるため、スコアが高くなるはずです。
tf-idfは用語辞書を作成するには悪いアプローチですか?
私は、文書のコーパスをtrainignのセットとして使用して、すべての法的用語の辞書を作成するという方向にもっと考えていました。しかし、あなたが正しいです、私はすでにそれらの用語を持っているし、法的文書を非法的なものから分離するなら、それはもっと役に立ちます。 – jCoder
TFxIDFが有用な方法の1つは、法的条件を分離することです。非法的文書(Wikipediaのトップ記事、法的なトピックを削除するための裁決を受けたもの)の別々の基盤を構築し、そこからあなたのIDF値を作成してください。これをあなたの法的文書のコレクションのTFxIDF計算に適用します。排他的な法的条件は高いIDFを持つので目立ちますが、一般的な言葉はIDFが低く、TFが高い場合でも底に沈む傾向があります。 – tripleee
Nit pick:IDFが1/DFとして定義されているTF/DFまたはTFxIDFです。 – tripleee