2011-11-13 14 views
2

R言語ではクラス分けのようにクラスタリングで予測関数がありますか? Rから得たクラスタリングのグラフ結果から、2つのクラスタを比較した場合のほかに、何が結論できますか?クラスタリングで予測する

+1

「clustering」タグの背後にあるテキストから引用します。クラスタリングには2つの意味があります。クラスタリングに加えて[Computer-clustering](http://en.wikipedia.org/wiki/Computer_cluster)タグまたは[Data-clustering](http://en.wikipedia.org/wiki/Data_clustering)というタグを使用してください。データクラスタリングでは、Ndata、Ndimension、Nclusterのようなサイズを与えることで、より良い回答を得るのに役立ちます。 –

+1

使用している機能を指定する必要があります。これが非常に一般的な質問であれば、あなたはおそらくCRANのタスクビューに行くべきです:http://cran.r-project.org/web/views/Cluster.html現時点では、質問は一般的に答えられるものです。おそらく閉じられるべきです。 –

答えて

2

クラスタリングは予測機能には関係しません。関連していると思われるオブジェクトを見つけようとします。そのため、結果をクラスタリングするための「予測」機能はありません。

しかし、多くの状況では、クラスターに基づいた分類分類子のパフォーマンスが向上します。このためには、基本的に分類子を訓練してオブジェクトを適切なクラスターに割り当て、次にこのクラスターの例についてのみ訓練された分類子を使用してクラスターを分類します。クラスタが純粋な場合は、この2番目の手順をスキップすることもできます。

理由は次のとおりです。複数の種類が同じラベルで分類されている可能性があります。両方のクラスタを同時に学習しようとするため、完全なデータセットで分類子をトレーニングするのは難しいかもしれません。クラスを2つのグループに分割し、それぞれに別々の分類子を訓練することで、タスクを大幅に簡単にすることができます。

1

多くのパッケージは、クラスタオブジェクト用にpredictメソッドを提供します。そのような例の1つはclueであり、cl_predictです。

これを実行する際のベストプラクティスは、トレーニングデータをクラスタ化するのに使用されているのと同じルールを適用することです。たとえば、カーネルK-Meansでは、データポイントとクラスタセンター間のカーネルの距離を計算する必要があります。最小値はクラスタ割り当て(see here for example)を決定します。スペクトラルクラスタリングでは、データポイントの非類似性を訓練データの固有関数に投影し、ユークリッド距離をその空間のK-Means中心点と比較し、最小値でクラスタ割り当て(see here for example)を決定する必要があります。