2017-11-18 7 views
0

GloVeを初めて使用しています。彼らのウェブサイトに記載されているとおり、私は正常にdemo.shを実行しました。デモを実行した後、私はvocabvectorsなどのようにいくつかのファイルを作成しました。しかし、どのファイルを使用する必要があり、最も類似した単語を見つけるためにどのようなファイルを使用するかについて記述しているものはありません。GloVeを使用して最も類似した単語を取得します。

したがって、私はGloVeで(コサイン類似性を使用して)一言でもっとも類似した単語を見つけるのを手伝ってください。 (例:Gensim word2vecのmost.similar

私を助けてください!

答えて

1

単語のベクトルがどのように生成されるかは関係ありません。単語間のコサインの類似度はいつでも計算できます。 (あなたはgensimを持って考慮して)されて何を求めて実現するための最も簡単な方法:

python -m gensim.scripts.glove2word2vec –input <GloVe vector file> –output <Word2vec vector file> 

これはw2v形式にグローブベクトルファイルを変換します。手動で行うこともできます - GloVeファイルに余分な行を追加するだけで、ファイルの先頭にベクトルの数と次元が含まれています。それは通常のw2vモデルであるかのようにあなただけのgensim、すべてにファイルが動作して読み込むことができた後

180000 300 
<The rest of your file> 

:それは何かの親族を探します。

+0

あなたの素晴らしい答えに感謝します。私はdemo.shを編集してテキストファイルに使用しようとしました。しかし、私は28987セグメンテーションフォールト:11 $ BUILDDIR/glove-save-file $ SAVE_FILE-inputファイル$ COOCCURRENCE_SHUF_FILE -iter $ MAX_ITER -vector-size $ VECTOR_SIZE -vocab-file $ VOCAB_FILE'というエラーが出ます。私はなぜこれが起こるのか知っている? –

+0

私自身のGloVeモデルを構築する一貫した方法を教えてください。 –

関連する問題