私は現在、word2vecモデルで次のようにユニグラムを使用しています。 def review_to_sentences(review, tokenizer, remove_stopwords=False):
#Returns a list of sentences, where each sentence is a list of words
#
#NLTK tok
Gensimのフレーズを使用して文中のバイグラムを次のように取得しようとしています。それは「ニューヨーク」として「新しい」、「ニューヨーク」をキャッチしていても from gensim.models import Phrases
from gensim.models.phrases import Phraser
documents = ["the mayor of new york was t
でgensimエラーをインストールします。 sudo pip install gensim
私は、次のエラーメッセージを得た: The directory '/home/woojung/.cache/pip/http' or its parent directory is
not owned by the current user and the cache has been disable