2016-06-15 4 views
0

私は3多次元データを持っている場合:ジオメトリック平均を使用して検出外れ値の多次元データを表すことはできますか?

私は3シグマルールによって外れ値を検出したいので、これら3つの者が意味するデータと標準偏差を計算したい
Data 1: (22, 80, 9) 

Data 2: (23, 78, 10) 

Data 3: (21, 81, 11) 

は、私は単純にデータ1、データ2およびデータ3を表現するための幾何平均を計算することはできますか?例えば


:私は一次元データに多次元データをマッピング

Data 1: (22,80,9) -> Data 1: (25.11414) 


Data 2: (23,78,10) -> Data 2: (26.17826) 


Data 3: (21,81,11) -> Data 3: (26.54803) 

後、私は容易に分散および標準偏差を得ることができます。

上記は私の推論ですが、私はそれが意味をなすかどうかわからないです。

誰が私を答えることができる、または誰かがこれまで紙は、このトピックについて取り上げ見てきました、

非常に感謝!私は、このように、(それがデータサンプル間で一貫性の意味を持っていることを、意味での)データセットの各寸法が固定されていることを前提としています「3シグマルール」を使用するために

+0

あなたは、単一のベクターへの各データの意味をマッピングして、SDまたはVARを取る場合は、あなたが全体のデータSDおよび分散が、新しいベクトルの唯一のSDと分散を得ることはありません。 – akash87

答えて

0

Data 1: (22, 80, 9) 
Data 2: (23, 78, 10) 
Data 3: (21, 81, 11) 
     ^^^
      | | | 
    some 1st feature| 
       | | 
     second feature 
        | 
      third feature 

あなたが必要あなたは、次の少なくとも一つが

を保持している場合に限っそれが外れ値であると仮定 (x1, x2, x3)新しいデータポイントを持っている場合、今ので

std1 = std(22, 23, 21) 
std2 = std(80, 78, 81) 
std3 = std(9, 10, 11) 

mu1 = mean(22, 23, 21) 
mu2 = mean(80, 78, 81) 
mu3 = mean(9, 10, 11) 

、賢明性感染症機能を推定します

  • x1が効率的に[mu3 - 3*std3, mu3 + 3*std3]

に属していない[mu2 - 3*std2, mu2 + 3*std2]

  • に属していない[mu1 - 3*std1, mu1 + 3*std1]
  • x2に属していない、何が起こっていることは、あなたのデータは、単変量を持っていることを前提としていることです、フィーチャは正規分布であり、そのフィーチャは条件に依存しないため、〜99.7%未満の確率を持つポイントは単純に拒否します。

    どこでも関係ない「幾何学的平均値」はありません。

  • 関連する問題