私はdoc2vecを使用して、フォロワーのトップ100のつぶやきをベクトル表現(たとえば、v1 ..... v100)に変換しています。その後、私はK-Meansクラスタを行うためにベクトル表現を使用しています。Doc2vecを使用した後にクラスタ結果を取り除く方法は?
model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)
クラスタ0はいくつかの値(v10、v12、v23など)によって支配されていることがわかります。私の質問は、これらのv10、v12などが何を表しているかです。これらの特定の列クラスタが文書の特定のキーワードであると推測できますか。
いいえ、k-meansなどのいくつかのアルゴリズムだけがすべての点をk個のクラスタに配布します。かなり多くのモデムアルゴリズムはそうではありません。そしてk-meansでさえ、クラスターは意味がありません。 word2vecを元のデータ空間にマップするのは簡単ではありません。 –
すべて私は彼らのつぶやきの内容を使って同様のフォロワーを分けたい。データに最適な数のクラスタを見つける方法があります。だから私はクラスタリングがまったく役に立たないということに同意しない。私は、doc2vecがより良いセグメンテーションを行うことができるかどうかを試してみるだけです。もちろん、ユーザーが興味を持っているトピックのセグメント化を行う必要があります。 –