2017-02-24 7 views
1

PSTパッケージでは、値をCとし、ツリーをプルーニングするための情報ゲイン関数のカットオフ値として使用します。次のように0.05のアルファためC値は、計算されます。C値は0.05のアルファに基づいていること情報利得枝刈り機能の文脈におけるアルファの意味は何ですか?

C95 <- qchisq(0.95, 1)/2 

何を意味するのでしょうか?私たちは、追加のノードが前のノードに比べてより多くの情報を追加して、それがプルーニングアルゴリズムによって保持されるようにするために、少なくとも95%確実であることを意味しますか?

答えて

1

の機能はpruneの機能で、このゲイン機能のしきい値はCです。

ブランチをプルーニングできるかどうかをチェックするために使用されるG2ゲイン関数の2倍は、実際にブランチをプルーニングする前後のツリーの可能性を比較する尤度比テスト統計です。統計2 * G2は、テストブランチが何も情報を追加しないという仮定の下、カイ2乗分布を持つ。そのため、ブランチは、その差が統計的に有意でない場合、すなわちG2値が与えられた有意水準の閾値を超えない限り、剪定される。

アルファは、統計的テストで使用される通常の重要度です。典型的には1%または5%である。 alpha = 0.05を選択すると、サンプルのランダム性のためにブランチを誤ってプルーニングしない可能性が5%あることを意味します。

関連する問題