2016-05-09 4 views
5

クエリでtf-idfを計算するにはどうすればよいですか?文書内のドキュメント/総言葉でクエリのTF-IDFを計算するにはどうすればよいですか?

TF = occurances

IDF =ログ(#documents/#documents:私は、次の定義とドキュメントのセットのためのTF-IDFを計算する方法を理解します用語は

を発生しかし、ここで私は、クエリに相関方法を理解していない。

たとえば用

は、私はクエリ "life learning"

人生の価値を述べたa resourceを読みます| tf = .5 | idf = 1.405507153 | tf_idf = 0.702753576
学習| tf = .5 | idf = 1.405507153 | tf_idf = 0.702753576

私は理解してtf値は、それぞれの用語は1/2したがって、2つの可能な用語のうち、一度だけ表示されます、しかし、私はidfが来る見当がつかない。
私は#documents = 1とoccurrence = 1、log(1)= 0と考えるでしょうから、idfは0になりますが、これは当てはまりません。あなたが使用している文書に基づいていますか?どのようにクエリのtf-idfを計算しますか?

答えて

2

tf(life)のみがクエリ自体に依存します。しかし、クエリのidfはバックグラウンド文書に依存するため、idf(life)= 1 + ln(3/2)〜= 1.405507153です。 これは、tf-idfがローカルコンポーネント(用語頻度)にグローバルコンポーネント(ドキュメント周波数の逆数)を掛けることとして定義されている理由です。

0

クエリが最高の自動車保険で、あなたの総語彙は最高、車が含まれているとし、自動車、保険あなたはN=1,000,000書類を持っています。今すぐあなたのQueryTF-IDFDocumentコサイン類似度を計算

enter image description here

enter image description here

そして、あなたの文書のいずれかが考えられます。だからあなたのクエリは以下のようなものです。

関連する問題