2017-02-18 3 views
0

私はまた、私がそれに答えることに成功しなかった私の会議で私に何度も尋ねられた疑いがあります。あなたがこの質問の洞察を知るために私を助けてくれることを願っています。クラスタのデータポイントの同じグループが、Kmeansクラスタリングで遠くに散らばっているか散在しているのはなぜですか?

私はそれぞれの問題の分野で多数のドキュメントをクラスタリングするために、私のプロジェクトでkmeansクラスタリングを使用しました。また、データポイントの座標をプロットするためにmatplotlibを使用しました。同じクラスタに属するデータポイントは、同じクラスタグループに属する他のドキュメントまたはデータポイントから分散または遠く離れていることがよくあります。一般的に人々が質問する質問は、文書またはデータポイントが同じクラスタ/グループのものであれば、互いに近いものにする必要があります。なぜ同じグループ/クラスタの文書に関しては起こっていないのですか?

どのように私はそれらを納得させることができますか、時々私は彼らが何を言いません。

同じ質問に加えて、私はクラスタの形成を制御しませんでしたが、私の分野のドメインエキスパートとして、私はドキュメントが属する問題領域をよく知っています。ですから、Kmeansや他のクラスタリングマシンを使って、あるいはハイパーパラメータを使いこなすことによって、この何千ものドキュメントを問題のある領域だけに構成/クラスタ化するにはどうすればいいですか?親切に私を助けてください。 enter image description here

は私がhttp://brandonrose.org/clustering

enter image description here

父、ニューヨークからの参照を取る持って、弟は紫色であるクラスタです。それが同じクラスタに属しているならば、それはお互いに近い側のプロット画面にある必要があります。なぜそれがプロット画面のいたるところに散らばっているのですか?私の場合も何が起きているのですか?

+0

私の経験では、テキスト上のk-meansはうまく機能しません。 **決して信じられない**結果。通常はポイントの50%以上が間違ったクラスターに含まれているため、そこにあるアイディアをあなたに伝えるために最大限に活用してください。 –

+0

ok、その場合、どのアルゴリズムがテキストに適していますか。私の問題の要件を広げる。私は、バジル、ソーシャルキャスト、セールスフォースなど、さまざまな出身の数千ものドキュメントや問題を持っています...私はこの文書やPRを鋭い問題領域に集めたいと思っています。例えば、JAVAでは、人々が日々直面している多くの問題があり、彼らは問題を投稿します。私はこの文書をすべて取りに行き、ヌルポイントレセプションがすべて1つのクラスターに入っていて、コレクション関連の問題が他のものになるはずですクラスタ。どのようなalgoスイートは、これをクラスター化するのに適しています。 –

+0

私はクラスタリングがそれを行うことができるとは思っていません。複数のデータソースを使用したため、bugzilla、socialcast、salesforceに対応するクラスタが表示される可能性が高くなります。それは成功したクラスタリングですが、あなたにとって無駄です。 –

答えて

1

あなたはあなたのデータに関する情報をほとんど提供していないので、この回答は少し投機的です。しかし、データポイントには2つ以上のコンポーネントがあり、少なくとも3次元空間でk-meansクラスタリングを実行することは間違いありません。次に、2Dで表示するために何らかの投影を使用します。投影のために、もともと互いに遠く離れている点は近くにあるように見えます。 2Dプロットは、オリジナルの高次元空間における近傍関係についてはほとんど言及していません。

+0

私の問題を解決するためにこのリンクを参照しました http://brandonrose.org/clustering ここでも私は特定のクラスターの映画が散らばっていることがわかります。上記の画像もアップロードします。私はクラスター名が紫色の父、ニューヨーク、兄弟であり、それらのデータポイントがプロットのどこに散らばっているのがわかります。それはなぜ、それは同じクラスターのすべての場合は、より密接にする必要があります。 –

+0

@Niteshkumar:リンクされた文書は、実際のクラスタリングが高次元のベクトル空間で行われるという私の前提を確認しています。この空間では、クラスタのポイントは実際には近くにあります。あなたが示す図は、この空間の2次元視覚化に過ぎません。 –

+0

でも、同じクラスタの下にあるデータポイントの2次元視覚化は非常に遠いのです。私が求めているのは、私の会合で説明するのがとても難しいと感じているからです。高次元のベクトル空間を説明する方法があり、なぜこのデータポイントがビジネスの人々にとって遠いのかあなたが私にいくつかの類推と深みを説明してくれれば素晴らしいことでしょう。 そして、あなたが今まで行ってきたあなたの時間と説明に感謝します。 –

関連する問題