私は現在、word2vecモデルで次のようにユニグラムを使用しています。 def review_to_sentences(review, tokenizer, remove_stopwords=False):
#Returns a list of sentences, where each sentence is a list of words
#
#NLTK tok
Gensimのフレーズを使用して文中のバイグラムを次のように取得しようとしています。それは「ニューヨーク」として「新しい」、「ニューヨーク」をキャッチしていても from gensim.models import Phrases
from gensim.models.phrases import Phraser
documents = ["the mayor of new york was t