2016-06-27 4 views
0

DBSCANには2つのパラメータ(minPtsとEps)が必要です。しかし、一部の情報源はepsが必要だと言っている人や、minPtsだけを必要としていると言っているので、OPTICSに必要なパラメータについては混乱しています。自動クラスタリングのDBSCANとOPTICS

異常値を破棄するのに最適なパラメータ値を自動的に決定しようとすると、どのアルゴリズムを使用する方が適していますか?

答えて

3

the original paperによると、minPtsとEpsの両方が必要です。 Epsが必須ではないと言う情報源は、おそらくそれに対して適切な値を自動的に決定するための何らかの方法を使用している可能性があります。 ただし、Epsはアルゴリズムの実行時間を短縮するためにのみ含まれています。必須ではありません。

外れ値の除去に最適な点は、数字を使って決定するのをサポートするよりも良い方法ではありません。データセットを取り、その外れ値をラベル付けしてから両方のアルゴリズムを実行します。クラスター(AUC、Fスコアなど)のパフォーマンス測定を使用して、最良のものを選択します。

+0

OPTICSアルゴリズムで混乱している概念の1つは、ノイズを最小限に抑えるための到達可能性を自動的に決定する方法です。 – user3315340

+0

この論文では、ノイズを除去するのに関連する2つの距離を定義しています。点(オブジェクト)pの中心距離です。これは、スペースで囲まれた点の数をminPtsにできる最も近い点との距離です。次に、oの中心距離またはoとpの間の距離(d(o、p))の最大値である2点pとo(oはクラスタの起点である)の到達可能距離距離が存在する。 oの中心距離よりも小さくてもよい)。図の図4を参照してください。 – Dylon

+0

一部のEps '<= Eps、その到達距離> Eps'、およびそのコア距離が> Eps 'の場合、オブジェクトはノイズとして分類されます。この論文の図8に、このアルゴリズムの詳細が記載されています。 – Dylon

1

OPTICSはeps = infinityで実行できます。しかしそれはO(n^2)の複雑さです。 (実際にアクセラレーションにインデックスを使用する実装があると仮定します)

しかし、OPTICSにはノイズの定義がDBSCANと明確に定義されていません。あなたが得ることができる最も近いのは、クラスター階層の最上位レベル(つまり、完全なデータセット)から、以下のクラスターにあるものを引いたものです。しかし、階層的なクラスタリングがあると、は階層内の複数のレベルに「ノイズ」を持つことができるため、ノイズの概念はこれ以上実際には機能しません。

関連する問題