2011-01-18 3 views
6

私は現在、クラスタ分析のための外れ値を持つ正方形、円形、長方形などの異なる形状のデータセットを生成するツールを探しています。外れ値と異なる形状(例えば、正方形、円形、長方形)の二変量データを生成するにはどうすればよいですか?

クラスタ解析に適したデータセットジェネレータをお勧めしますか? Rなどの言語でこのようなデータセットを生成する方法はありますか?

答えて

6

私は形状を作成し、境界座標を抽出します。 splancsパッケージを使用してランダムな点で図形を作成できます。

は、ここに私のプログラムの一つから小さな抜粋です:

# First we create a circle, into which uniform random points will be generated (kudos to Barry Rowlingson, r-sig-geo). 
circle <- function(x = x, y = y, r = radius, n = n.faces){ 
    t <- seq(from = 0, to = 2 * pi, length = n + 1)[-1] 
    t <- cbind(x = x + r * sin(t), y = y+ r * cos(t)) 
    t <- rbind(t, t[1,]) 
    return(t) 
} 

csr(circle(0, 0, 100, 30), 1000) 

alt text

は、外れ値を追加すること自由に感じなさい。これについての1つの方法は、異なる形状をサンプリングし、それらを様々な方法で結合することです。

+0

は):-)ありがとうございました:-)たくさん助けています) – Pradeep

6

mlbenchパッケージ、特にmlbench.*関数から生成する合成データセットを調べてください。以下のいくつかの例を参照してください。

enter image description here

他のデータセットまたはユーティリティ機能は、おそらく最高CRAN上Clusterタスクビューで発見されています。 @Romanによると、異常値を追加することは、特に2次元で作業する場合は特に難しくありません。

1

ELKIには、任意の次元でさまざまな分布を生成できる柔軟なデータジェネレータがあります。また、たとえば、ガンマ分散変数を生成することもできます。

のWikiのドキュメントがあります:http://elki.dbs.ifi.lmu.de/wiki/DataSetGenerator

関連する問題