2017-07-31 9 views
0

これは私が聞いている素朴な質問かもしれません。私はGensimのWord2vecモデルを訓練したトークン化コーパスを持っています。コードは次のとおりですPython:word2vecに基づいて同様の単語をクラスタリングする

site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1") 
site.download() 
site.parse() 

def clean(doc): 
    stop_free = " ".join([i for i in word_tokenize(doc.lower()) if i not in stop]) 
    punc_free = ''.join(ch for ch in stop_free if ch not in exclude) 
    normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split()) 
    snowed = " ".join(snowball.stem(word) for word in normalized.split()) 
    return snowed 

b = clean(site.text) 
model = gensim.models.Word2Vec([b],min_count=1,size=32) 
print(model) ### Prints: Word2Vec(vocab=643, size=32, alpha=0.025) #### 

類似の単語をクラスタ化するには、類似の単語のクラスタを視覚化するためにPCAを使用しています。しかし問題は、画像に見られる大きなクラスタだけを形成していることです。

PCA &散布コード:

vocab = list(model.wv.vocab) 
X = model[vocab] 
pca = PCA(n_components=2) 
X_pca = pca.fit_transform(X) 

df = pd.concat([pd.DataFrame(X_pca), 
       pd.Series(vocab)], 
       axis=1) 
df.columns = ['x','y','word'] 

fig = plt.figure() 
ax = fig.add_subplot(1,1,1) 
ax.scatter(df['x'],df['y']) 
plt.show() 

だから、私はここに3つの質問があります)

1をクラスタの明確な分離を持っているのに十分なだけの一品ですか?

2)巨大なコーパスで訓練されたモデルを持っていて、新しい記事で類似した言葉を予測し、それを(つまり予測している記事の言葉を)クラスターの形で視覚化したいのですが、それを行う方法?

大変ありがとうございます。ありがとうございました。

答えて

1
  1. いいえ、実際はありません。参考までに、ウィキペディア(英語)で訓練された一般的なword2vecモデルは約30億語で構成されています。
  2. KNN(または類似のもの)を使用することができます。 Gensimは最も近い単語を得るためにmost_similar関数を持っています。 (PCAやtsneのような)次元の縮小を使うと、自分自身を素敵なクラスターにすることができます。 (gensimがtsneモジュールを持っていますが、あなたはそれを使用することができますのでsklearnが、持っているかどうかわからない)

ところで、あなたは、いくつかの画像を参照しているが、それは利用できません。

+0

ありがとうございます@ lazary。はい、私はトレーニングデータサイズの要件に完全に同意します。私はK平均クラスタを使用し、それは私にすてきなクラスターを与えました。質問を投稿している間に画像を添付しましたが、表示されませんでした。私が編集しようとしたとき、私の添付ファイルへのリンクがありました。 –

関連する問題