tfとidfを計算する方法はさまざまです。 LSAモデルでgensimがどの式を使用しているかを知りたい。私はそのソースコードlsimodel.py
を調べていますが、おそらくメモリ最適化のためにドキュメント用語行列が作成されている場所はわかりません。 one LSA paperでgensimのLSAモデルで使用するtf-idfの式はどれですか?
、Iドキュメントタームマトリックスの各セルは、その単語のエントロピーで除算し、その文書におけるその単語の対数周波数であることを読み取る。
tf(w, d) = log(1 + frequency(w, d))
idf(w, D) = 1/(-Σ_D p(w) log p(w))
しかし、これはいるようですtf-idfの非常に珍しい処方である。 TF-IDFのより身近な形式は次のとおりです。
tf(w, d) = frequency(w, d)
idf(w, D) = log(|D|/|{d ∈ D: w ∈ d}|)
私もquestion on how the TfIdfModel
itself is implemented in gensimがあることに気づきます。しかし、私はをインポートするlsimodel.py
を見ていないので、lsimodel.py
には独自のtf-idfの実装があるとしか仮定できません。