私はまた、私がそれに答えることに成功しなかった私の会議で私に何度も尋ねられた疑いがあります。あなたがこの質問の洞察を知るために私を助けてくれることを願っています。クラスタのデータポイントの同じグループが、Kmeansクラスタリングで遠くに散らばっているか散在しているのはなぜですか?
私はそれぞれの問題の分野で多数のドキュメントをクラスタリングするために、私のプロジェクトでkmeansクラスタリングを使用しました。また、データポイントの座標をプロットするためにmatplotlibを使用しました。同じクラスタに属するデータポイントは、同じクラスタグループに属する他のドキュメントまたはデータポイントから分散または遠く離れていることがよくあります。一般的に人々が質問する質問は、文書またはデータポイントが同じクラスタ/グループのものであれば、互いに近いものにする必要があります。なぜ同じグループ/クラスタの文書に関しては起こっていないのですか?
どのように私はそれらを納得させることができますか、時々私は彼らが何を言いません。
同じ質問に加えて、私はクラスタの形成を制御しませんでしたが、私の分野のドメインエキスパートとして、私はドキュメントが属する問題領域をよく知っています。ですから、Kmeansや他のクラスタリングマシンを使って、あるいはハイパーパラメータを使いこなすことによって、この何千ものドキュメントを問題のある領域だけに構成/クラスタ化するにはどうすればいいですか?親切に私を助けてください。
は私がhttp://brandonrose.org/clustering
父、ニューヨークからの参照を取る持って、弟は紫色であるクラスタです。それが同じクラスタに属しているならば、それはお互いに近い側のプロット画面にある必要があります。なぜそれがプロット画面のいたるところに散らばっているのですか?私の場合も何が起きているのですか?
私の経験では、テキスト上のk-meansはうまく機能しません。 **決して信じられない**結果。通常はポイントの50%以上が間違ったクラスターに含まれているため、そこにあるアイディアをあなたに伝えるために最大限に活用してください。 –
ok、その場合、どのアルゴリズムがテキストに適していますか。私の問題の要件を広げる。私は、バジル、ソーシャルキャスト、セールスフォースなど、さまざまな出身の数千ものドキュメントや問題を持っています...私はこの文書やPRを鋭い問題領域に集めたいと思っています。例えば、JAVAでは、人々が日々直面している多くの問題があり、彼らは問題を投稿します。私はこの文書をすべて取りに行き、ヌルポイントレセプションがすべて1つのクラスターに入っていて、コレクション関連の問題が他のものになるはずですクラスタ。どのようなalgoスイートは、これをクラスター化するのに適しています。 –
私はクラスタリングがそれを行うことができるとは思っていません。複数のデータソースを使用したため、bugzilla、socialcast、salesforceに対応するクラスタが表示される可能性が高くなります。それは成功したクラスタリングですが、あなたにとって無駄です。 –