私は単純な(愚かかもしれない)質問があります。私は2つの文書でKullback-Leiblerの相違を計算したいと思います。それは各文書の確率分布を必要とする。確率分布を計算する
私はどのように各文書の確率を計算するのか分かりません。素人の例を使って簡単に答えていただければ幸いです。
1 - cross validated answers are good
2 - simply validated answers are nice
私たちはこれらの文書のための確率を計算するにはどうすればよい
(文書の文言はあなたの例を与えるためにちょうどBLAのBLAです):
は二つの文書に従うのは、我々が持っているとしましょうか?
は、我々は1つのより多くのドキュメントを追加しましょう:
3 - simply cross is not good answer
我々は別の文書を追加した場合、それがどのように確率分布に影響を与えるのでしょうか?
おかげ
これは宿題ですか? – emaillenin
ではありません。さらに、私はソースコードを要求しなかった;)。私は簡単な素人の例を求めた。宿題の場合は私の教授です。lol – user751637
Kullback-Leibler発散は対称ではありません。 KL(D1、D2)!= KL(D2、D1)である可能性があります。さらに、一方の文書に他の文書に存在しない単語が含まれていると、無限の発散値を得ることができます(KL発散を測定する方向によって異なります)。 2つのドキュメントの類似性の類似性を情報理論に基づいた尺度で計算したい場合は、Jennsen-Shannon divergence(http://en.wikipedia.org/wiki/Jensen-Shannon_divergence)を参照してください。 KL発散、対称性および有限性に基づく。 –