2016-02-17 11 views
5

私はTf-idfを使って単語の辞書を構築しようとしています。しかし、直感的には意味をなさない。用語抽出のためのTf-idfの直観

Tf-Idfの逆文書頻度(Idf)部分が、全コーパスに対する用語の関連性を計算する場合、重要な単語のいくつかは関連性が低い可能性があることを意味します。

法的文書のコーパスを見ると、すべての文書に「ライセンス」または「法的」という用語が表示されることがあります。 Idfのために、これらの用語のスコアは非常に低くなります。しかし、直感的に言えば、これらの用語は明らかに法的用語であるため、スコアが高くなるはずです。

tf-idfは用語辞書を作成するには悪いアプローチですか?

答えて

4

はいこれらの用語は法的用語です。しかし、TF/IDFは、それらが特定のドメインに関連しているかどうか評価しようとしません。それらはそのドメインからの文書を粉砕するのに役立ちます。 legalのような用語がすべての文書に出現すると、これらの文書を区別するのに分類子を助けてくれません。ただし、法的文書とランダムな文書のセットを混在させる場合。彼らは突然、非常に関連性が高くなることがわかります。法律上の文書やその他の文書を区別することができるからです。

実際には、より典型的には、「種類の」ストップワードを削除するために使用されます。例えば。 Theはすべての文書で発生し、意味はありません。

TF/IDFが辞書を作成するのに適しているかどうかは、この辞書で後で何をしたいかによって大きく異なります。

+0

私は、文書のコーパスをtrainignのセットとして使用して、すべての法的用語の辞書を作成するという方向にもっと考えていました。しかし、あなたが正しいです、私はすでにそれらの用語を持っているし、法的文書を非法的なものから分離するなら、それはもっと役に立ちます。 – jCoder

+1

TFxIDFが有用な方法の1つは、法的条件を分離することです。非法的文書(Wikipediaのトップ記事、法的なトピックを削除するための裁決を受けたもの)の別々の基盤を構築し、そこからあなたのIDF値を作成してください。これをあなたの法的文書のコレクションのTFxIDF計算に適用します。排他的な法的条件は高いIDFを持つので目立ちますが、一般的な言葉はIDFが低く、TFが高い場合でも底に沈む傾向があります。 – tripleee

+0

Nit pick:IDFが1/DFとして定義されているTF/DFまたはTFxIDFです。 – tripleee

関連する問題