2016-06-29 2 views
1

グループで分割する必要があるアイテムの「積み重ね」があり、これらのアイテムがどれだけ異なっているかを表すことができれば、数字では、もしあなたが望むなら、私はこの入力をどのように意味のあるグループに分けるのでしょうか?アイテムの積み重ねを考えると、それらを比較することによって有意義なグループに分割されます

私はここにしようとし、それをより明確にするためには、私がこれまで試してみました何で、これは抽象的な質問のビットであることを認識:

を私はすべての頂点重み付きグラフとして入力を表す試してみました他のすべての頂点に接続され、エッジの「強度」は相対スコアとなります。次に、グラフの最長エッジをとり、その最長エッジの終点にある頂点との「親密性」によって他のすべての頂点を区切ります。これは合理的にうまくいくが、必ずしも論理的ではないかもしれない結果のために常に2つのグループを生成するという欠点がある。

たとえば、果物の違いを数値で表現できるとします。そしてリンゴの山があると、リンゴの種類は、Elstar、Jonagold、あなたのものとは異なるカテゴリになります...しかし、リンゴ、梨、オレンジからなる山があると、リンゴは比較的類似しており、同じカテゴリーに分類されるべきである。

平均よりも大きなグラフのすべてのエッジと標準偏差などを削除してから、どのように多くの分断された部分グラフが表示されるかを確認する必要がありますが、アプローチを聞きたいのですが私よりも数学的知識が豊富です。

+1

有用なことがあります[クラスタ分析を見る](https://en.wikipedia.org/wiki/Cluster_analysis) –

答えて

2

これはコメントのために少し長いです。

あなたが指しているのはクラスタリングです。 2つのアイテムの間に「距離」行列があるようですが、これはおそらく「強度」メトリックの逆です。距離メトリックは負ではなく、2つのものが等しい場合は0です。値が大きいほどアイテムはさらに離れていきます。

一般的な「距離」行列がある場合、典型的なクラスタリング方法は階層/凝集クラスタリングです(「距離」は距離の正式な性質をすべて満たしていない可能性があるため引用符で囲みます)。このテクニックの理解を始めるには、Wikipedia pageが適しています。階層的クラスタリングの背後にあるアイデアは、完全に接続されていないグラフにも適用できます。

ほとんどすべての統計パッケージには、何らかの形の階層的クラスタが含まれていると思います。

関連する問題