つぶやきを使用してDoc2Vecモデルを準備しています。各つぶやきの単語列を別の文書としてみなされ、「SENT_1」と表示され、SENT_2" SENT_2を 『などDoc2Vecに使用されている単語を抽出するには
taggeddocs = [] for index,i in enumerate(cleaned_tweets): if len(i) > 2: # Non empty tweets sentence = TaggedDocument(words=gensim.utils.to_unicode(i).split(), tags=[u'SENT_{:d}'.format(index)]) taggeddocs.append(sentence) # build the model model = gensim.models.Doc2Vec(taggeddocs, dm=0, alpha=0.025, size=20, min_alpha=0.025, min_count=0) for epoch in range(200): if epoch % 20 == 0: print('Now training epoch %s' % epoch) model.train(taggeddocs) model.alpha -= 0.002 # decrease the learning rate model.min_alpha = model.alpha # fix the learning rate, no decay
私が言う、与えられたつぶやきに似たつぶやきを見つけたい』。どう?
私は同様のツイートのラベルを取得します:
SENT_4372 SENT_1143 SENT_4024 SENT_4759 SENT_3497 SENT_5749 SENT_3189 SENT_1581 SENT_5127 SENT_3798
しかし、与えられた:それのように印刷さ
sims = model.docvecs.most_similar('SENT_2') for label, score in sims: print(label)
ラベル、元のつぶやきの言葉/文を取得するにはどうすればいいですか?例えば。 「SENT_3497」のつぶやき言葉は何ですか?これをDoc2Vecモデルに問い合わせることはできますか?