2017-05-18 1 views
0

gensimのバージョン0.12.4を使用しており、同じテキストと同じパラメータを使用して2つの別々の単語埋め込みを訓練しました。訓練の後、単語出現頻度とベクトル長の間のピアソン相関を計算しています。あるモデル私はsave_word2vec_format(fname, binary=True)を使用して訓練し、load_word2vec_formatを使用してロードし、model.save(fname)を使用して訓練し、次にWord2Vec.load()を使用してロードしました。私はword2vecアルゴリズムが非決定的であることを理解しているので、結果は変わりますが、2つのモデル間の相関の差は非常に激しいです。この場合、どの方法を使用する必要がありますか?Gensim save_word2vec_format()とmodel.save()との比較

答えて

0

EDIT:これはコメントのためのものです。

単語の出現頻度とベクトルの長さの間の相関あなたのベクトルが同じ長さではないのですか?または、埋め込みベクトルを参照していませんか?

+0

申し訳ありませんが、私は埋め込みベクトルの大きさを使用しています。私。 '' numpy.linalg.norm(model [word]) '' – GNMO11

関連する問題