2009-04-01 15 views
5

ソーシャルネットワークグラフのいくつかのメトリックをノードの順位付けのための単一の値に組み合わせたいとします。線形結合のためにべき乗則分布に従って複数の変数を標準化/スケール/正規化する正しい方法

in_degree + betweenness_centrality = informal_power_index

問題がin_degreebetweenness_centralityは、異なるスケールで測定0-15対0から35000を言うと、(少なくとも間違いない正規分布)べき乗分布に従うことです

があります変数を再スケーリングして1つのw informal_power_indexを決定する際に他を支配していませんか?

三の明らかアプローチがある:変数(stddevによってmeanと除算を減算)標準化

  • 。これは、ディストリビューションをあまりにも大きく潰し、ロングテールの値とピーク付近の値との大きな違いを隠しているようです。
  • min(variable)を減算し、max(variable)で割ることによって、[0,1]の範囲に変数を再スケーリングする。これは配布の形を変えないので問題を解決することに近いと思われますが、おそらくそれが実際に問題に対処しないでしょうか?特に手段は異なっている。
  • 各値をmean(variable)で割って平均を均等化します。これはスケールの違いには対処しませんが、おそらく平均値は比較のためにより重要ですか?

他のアイデアはありますか?

答えて

1

それぞれをパーセントに変換し、それぞれを既知のqunantityに適用することができます。次に、新しい値の合計を使用します。

((1 - (in_degee/15)* 2000)+((1 - ?(betweenness_centrality/35000)* 2000)=

+0

標準的な方法と同じ問題はありませんが、それはワールドワイドに離れていてもパーセンタイル95と99がかなり近くに見えるように分布を縮小します(Bill Gateの銀行口座と...) –

+0

このメソッドはすべてをパーセンテージ内に配置します。その数がどのように平均から逸脱しているかに基づいているわけではありません。しかし、私はそこであなたの方法論が明確ではないかもしれません。 2000年は恣意的であった。値が大きいほど、よりユニークな値を作成できます。 – Thad

4

あなたは基礎となる分布の強い責任感を持っているように見える自然の再スケーリング。あなたのモデルが不完全な場合は、各変量をその確率で置き換えることです。あるいは、モデルが不完全な場合は、それを近似する変換を選択します。変量)の場合、0-10%パーセンタイルか10-20%パーセンタイル... 90-100%パーセンタイルかに基づいて、それぞれを10ポイントスケールに変換することができます。 1、2、...、10で配布したいと思っていても、それらを組み合わせることができます。

+0

これは非常にクールなアイデアです。私はそれを試してみます! –

0

[0,1]に正規化すると、前述のように分布形状を維持し、値を組み合わせる問題を解決する必要があるため、2つの値を組み合わせることを私の短期間の推奨とします。

2つの変数の分布が異なる場合は、これは実際に私が思うものをあなたに与えない可能性が高いと思われます。これは、それぞれの変数がその所与の分布内のどこにあるかをまとめたものです。与えられた分布のどこに値があるのか​​を決めるメトリックを考えなければならないでしょう。これは多くの方法で行うことができます。その1つは、与えられた値が平均からどれだけずれているかを決定することですこれら2つの値を何らかの形で組み合わせてインデックスを取得します。 (追加はもはや十分ではないかもしれません)

あなたはあなたの目に見えるデータセットに最も合ったものを考えなければなりません。標準偏差は用途には無意味かもしれませんが、正規化されているかどうかにかかわらず、絶対値を組み合わせるのではなく、分布に関連する統計的尺度を見て組み合わせる必要があります。

+0

2番目のパラグラフでは、標準メトリック値から平均値からの標準偏差の数に移行する標準化アプローチが説明されているようです。これはすべて正規分布ではうまくいくと思われ、他の分布ではあまりうまくいかないようです –

+0

3番目の段落で示したように、データセットに関係する統計的測定値を調べる必要があります。 、歪度、およびおそらく尖度 –

1

非常に興味深い質問です。でした。この作品のようなもの:

我々は0から35000

  1. の範囲を持っているbetweeness_centralityの例を見てみましょう[-1,1] の範囲に両方の変数をスケーリングすることを前提としています変数の範囲の順に大きな数値を選択します。例として25,000を選択できるようにする
  2. 元の範囲[0-35000]に25,000のビンを、新しい範囲[-1,1]に25,000ビンを作成する
  3. 各番号xiはビン#元のビン。これをB-iとする。
  4. [-1,1]の範囲のB-iの範囲を見つける。
  5. [-1,1]内のB-iの範囲の最大/最小のいずれかを、x-iのスケーリングされたバージョンとして使用します。

これは、電力法則の分布を[-1,1]にスケーリングしながら保存し、(x-mean)/ sdの経験の問題はありません。

関連する問題