2017-02-02 12 views
1

文書のTF-IDFランキングとランキングのバイナリ独立モデルの違いは何ですか?私はそれらを区別することができません。情報検索システム

私はバイナリ独立モデルの実用的実装がTF-IDFを持つことにつながると思います。私が間違っているなら、私を助けてください。

+0

あなたは正しいです... tf-idfはアドホックです...確率論的分析は、tf-idfのような関数がうまくいく理由を確立します... – Debasis

答えて

2

主な違いは、バイナリ独立モデルでは、単語の重要度とすべての単語が同じように扱われるということは考えられません。しかし、TF-IDFで単語を重み付けすると、1つの文書でより多く使用され、文書頻度が低い単語に、より良いスコアを与えるでしょう。

2

あなたは正しいです。 Binary Independence Modelは、ドキュメントがバイナリベクトルであることを前提としています。つまり、文書内の用語の有無だけが記録されます。一方、Vector Space Modelによれば、文書は用語加重のベクトルによって表され、TF-IDFは用語加重を表すただ一つの方法である。

関連する問題