2
商品名のラベルが付いていないデータセットがあります。例えば、野球シャツ、爆撃ジャケット、活発な古典的なボクサーなどテキストクラスタリングがこれを行うのはなぜですか
データでtf-idfマトリックスを作成した後、マトリックス上でk-手段を実行しました。私は、クラスタリング後5
で最高のKを見つけるために、正方形の内、クラスタ合計をプロットした私はその後、私は2にそれを減らすためにdistの上でMDSを使用した文書
# cosine similarity between each document
from sklearn.metrics.pairwise import cosine_similarity
dist = 1.0 - cosine_similarity(tfidf_matrix)
print dist
間のコサイン類似度を考え出しました私はクラスターをプロットすることができます。
from sklearn.manifold import MDS
mds = MDS(n_components=2, dissimilarity="precomputed", random_state=1)
xs, ys = pos[:, 0], pos[:, 1]
クラスタプロットは円周を除いてかなり良いようです。それがこれをやっている理由はありますか?クラスタの残りの部分は、同様の領域を中心にクラスタリングされているようです。
これは、円周にないものが完全に違っていて、長いテキストであることを意味しますか? –
それらを調べて、あなたはデータを持っています。私はここでは**ほとんどのテキストは*他のテキスト**とまったく異なっていると仮定しているので、視覚化はそれらを均等に(「均一」に)しようとします。 TF-IDFがうまくいくためには、あなたのテキストは100+単語*でなければなりません! –