0
gensimのバージョン0.12.4
を使用しており、同じテキストと同じパラメータを使用して2つの別々の単語埋め込みを訓練しました。訓練の後、単語出現頻度とベクトル長の間のピアソン相関を計算しています。あるモデル私はsave_word2vec_format(fname, binary=True)
を使用して訓練し、load_word2vec_format
を使用してロードし、model.save(fname)
を使用して訓練し、次にWord2Vec.load()
を使用してロードしました。私はword2vecアルゴリズムが非決定的であることを理解しているので、結果は変わりますが、2つのモデル間の相関の差は非常に激しいです。この場合、どの方法を使用する必要がありますか?Gensim save_word2vec_format()とmodel.save()との比較
申し訳ありませんが、私は埋め込みベクトルの大きさを使用しています。私。 '' numpy.linalg.norm(model [word]) '' – GNMO11