2016-12-01 5 views
1

私はKolmogorov-Smirnovのテスト結果の有意水準/アルファレベル(最終的には信頼水準を得るために)を探していますが、これは十分に説明されていないので、私は狂っているように感じていますKSテストの結果から重要度αを得るには?

Cauchy、Gaussian、Students t、Laplaceの4つの確率分布関数のいずれかから来た場合、私は見たいサンプルデータを持っています。 (私は2標本検定を致しておりません)

をここでは、コーシーのためのサンプルコードです:

### Cauchy Distribution Function 
data = [-1.058, 1.326, -4.045, 1.466, -3.069, 0.1747, 0.6305, 5.194, 0.1024, 1.376, -5.989, 1.024, 2.252, -1.451, -5.041, 1.542, -3.224, 1.389, -2.339, 4.073, -1.336, 1.081, -2.573, 3.788, 2.26, -0.6905, 0.9064, -0.7214, -0.3471, -1.152, 1.904, 2.082, -2.471, 0.6434, -1.709, -1.125, -1.607, -1.059, -1.238, 6.042, 0.08664, 2.69, 1.013, -0.7654, 2.552, 0.7851, 0.5365, 4.351, 0.9444, -2.056, 0.9638, -2.64, 1.165, -1.103, -1.624, -1.082, 3.615, 1.709, 2.945, -5.029, -3.57, 0.6126, -2.88, 0.4868, 0.4222, -0.2062, -1.337, -0.326, -2.784, 6.724, -0.1316, 4.681, 6.839, -1.987, -5.372, 1.522, -2.347, 0.4531, -1.154, -3.631, 0.426, -4.271, 1.687, -1.612, -1.438, 0.8777, 0.06759, 0.6114, -1.296, 0.07865, -1.104, -1.454, -1.62, -1.755, 0.7868, -3.312, 1.054, -2.183, -7.066, -0.04661, 1.612, 1.441, -1.768, -0.2443, -0.7033, -1.16, 0.2529, 0.2441, -1.962, 0.568, 1.568, 8.385, 0.7192, -1.084, 0.9035, 3.376, -0.7172, -0.1221, 3.267, 0.4064, -0.4894, -2.001, 1.63, -2.891, 0.6244, 2.381, -1.037, -1.705, -0.5223, -0.2912, 1.77, -3.792, 0.1716, 4.121, -0.9119, -0.1166, 5.694, -5.904, 0.5485, -2.788, 2.582, -1.553, 1.95, 3.886, 1.066, -0.475, 0.5701, -0.9367, -2.728, 4.588, -5.544, 1.373, 1.807, 2.919, 0.8946, 0.6329, -1.34, -0.6154, 4.005, 0.204, -1.201, -4.912, -4.766, 0.0554, 3.484, -2.819, -5.131, 2.108, -1.037, 1.603, 2.027, 0.3066, -0.3446, -1.833, -2.54, 2.828, 4.763, 0.9926, 2.504, -1.258, 0.4298, 2.536, -1.214, -3.932, 1.536, 0.03379, -3.839, 4.788, 0.04021, -0.2701, -2.139, 0.1339, 1.795, -2.12, 5.558, 0.8838, 1.895, 0.1073, 2.011, -1.267, -1.08, -1.12, -1.916, 1.524, -1.883, 5.348, 0.115, -1.059, -0.4772, 1.02, -0.4057, 1.822, 4.011, -3.246, -7.868, 2.445, 2.271, 0.5377, 0.2612, 0.7397, -1.059, 1.177, 2.706, -4.805, -0.7552, -4.43, -0.4607, 1.536, -4.653, -0.5952, 0.8115, -0.4434, 1.042, 1.179, -0.1524, 0.2753, -1.986, -2.377, -1.21, 2.543, -2.632, -2.037, 4.011, 1.98, -2.589, -4.9, 1.671, -0.2153, -6.109, 2.497] 
def C(data): 
    stuff = [] 
    # vary gamma 
    for scale in xrange(1, 101, 1): 
     ks_statistic, pvalue = ss.kstest(data, "cauchy", args=(scale,)) 
     stuff.append((ks_statistic, pvalue, scale)) 
    bestks = min(c[0] for c in stuff) 
    bestrow = [row for row in stuff if row[0] == bestks] 
    return bestrow 

私は私のデータには、この機能に合うようにをしようとしていますし、規模を返すためにCauchy分布に適合する最も高い確率に対応するパラメータ(ガンマ)。対応するks統計値とp値も返されます。 I 考えてこれは、与えられたデータ点と分布曲線点との間の最小距離をもたらす曲線である最小ks統計量を見出すことによって行われると考えられる。私が見つけたのは、「アルファ」を見つけるために、サンプルデータがCauchy Distributionのものであり、私が見つけたスケール/ガンマ値がある確率を見つける必要があることです。

"アルファ"の検索方法を説明しようとしている多くの情報源を参照していますが、私のコードでこれを行う方法はありません。

ご協力いただきありがとうございます。

+0

**縮尺**の値が0.1から1.0までの場合、K-S統計値は増加し、* p *値は減少します。 (1,11)]:scale、kstest(data、 "cauchy"、args =(scale、)) 'である。 –

+0

@BillBell:これは、このコードだけでなく、私が持っているものの残りの部分についても、より良い方法で範囲を反復するのに役立ちました。ありがとうございました。提案された曲線にフィットするデータの可能性をp値がどのように示しているのか説明できますか? – layces

答えて

1

私はこの質問が実際には統計の範囲外なので、範囲外であると思います。おそらく、クロスバリデーション(Cross Validation)などで回答する方がよいでしょう。しかし、私は1つまたは2つの発言を提供しましょう。

K-Sは、指定されたデータセットが与えられた完全指定分布関数から生じたかどうかをテストするために使用されます。 (この目的であっても、最適ではないかもしれません。)私が知る限り、代替案の間の適合の尺度として意図されていません。

確率についての推論を行うには、最初にデータの実行可能な確率モデルが必要です。この場合、選択肢のスペースはどれくらいであり、ヌルと代替仮説の下でどのように確率が割り当てられますか?

ここで、私が提供したその役に立たないコメントを得る。とても感動してくれてありがとう!これは私が表現しようとしていたものです。

単位ステップで1〜100のスケールを試してみます。私は、1つよりも少ないスケールが興味深い結果を生むことを指摘したかったのです。今私はp値が考慮されるときに特に当てはまるいくつかの近似を見る。スケール= 2の場合はそれとは別に何も言えません。ここにプロットがあります。

various fits

各トリプル(スケール、K-S、P)を与えます。

主なものかもしれないあなたのデータから何をしたいですか?

+0

あなたの忍耐力をありがとう、私はまだ理解していないと思うが、あなたが助けにあなたの最善を尽くしていないためではないと思う。そのグラフから、私は "緑の曲線がデータに最もよくフィットするので、その分布はそのスケールのprob関数から来ている"と期待しています。しかし、p値は非常に小さいです...私は、1)p値がヌルを拒否する最小有意水準(例えば、データがそのスケール値でその関数から得られる)であることと、 2)そのような小さいp値(〜e-15)は、nullが真ではないことを意味します.. – layces

+0

私は、緑の曲線もフィット感に応じて最適なフィットかもしれないと思います測定された。私はあなたがこれらのp値に基づいて議論をすることはできないと思うが、統計的に許容可能であると仮定すれば、これらのp値はすべて、これらのうちの1つサンプルデータを生じさせた分布は拒絶されなければならなかった。現代の専門統計学者は、これらの種類の論理的苦境が発生するために部分的に判断を下すためにp値を使用することに非常に注意しています。 –

関連する問題