2016-09-30 4 views
2

商品名のラベルが付いていないデータセットがあります。例えば、野球シャツ、爆撃ジャケット、活発な古典的なボクサーなどテキストクラスタリングがこれを行うのはなぜですか

データでtf-idfマトリックスを作成した後、マトリックス上でk-手段を実行しました。私は、クラスタリング後5

で最高のKを見つけるために、正方形の内、クラスタ合計をプロットした私はその後、私は2にそれを減らすためにdistの上でMDSを使用した文書

# cosine similarity between each document 
from sklearn.metrics.pairwise import cosine_similarity 
dist = 1.0 - cosine_similarity(tfidf_matrix) 
print dist 

間のコサイン類似度を考え出しました私はクラスターをプロットすることができます。

from sklearn.manifold import MDS 
mds = MDS(n_components=2, dissimilarity="precomputed", random_state=1) 
xs, ys = pos[:, 0], pos[:, 1] 

クラスタプロットは円周を除いてかなり良いようです。それがこれをやっている理由はありますか?クラスタの残りの部分は、同様の領域を中心にクラスタリングされているようです。

enter image description here

答えて

2

TF-IDFは長いテキストのために動作します。

このため、ほとんどすべてのドキュメントは完全に異なっており、このように「ファンアウト」しています。

私は、k-手段がどちらかといえばうんざりしているのではないかと疑います。

+0

これは、円周にないものが完全に違っていて、長いテキストであることを意味しますか? –

+0

それらを調べて、あなたはデータを持っています。私はここでは**ほとんどのテキストは*他のテキスト**とまったく異なっていると仮定しているので、視覚化はそれらを均等に(「均一」に)しようとします。 TF-IDFがうまくいくためには、あなたのテキストは100+単語*でなければなりません! –

関連する問題