2016-12-02 5 views
0

極端な外れ値を使用して回帰モデルをオフにして、If-Then-Elseステートメントを使用してそれらを削除しました。しかし、SASはそれらのデータポイントを完全に削除し、残っているものに新たな異常値を発見しました。ミックスに多くを投じることなくアウトライヤーを分析から取り除く方法はありますか?If-Then-Elseステートメントで極端な異常値を処理する

I計算Q3 + 1.5 * IQRとなるようにその値を使用:だから

Data lungcancer; input trt surv age sex @@; 
/* create a new variable diff */ 
diff = surv - 365; 
/* create a new categorical variable resp */ 
If diff > 0 then resp= 1; 
If diff <= 0 then resp= 0; 
/* create a new categorical variable sev */ 
    if 2276 > surv >= 1621 then sev=0; 
    Else If 456 <= surv <= 1620 then sev=1; 
    Else if 181 <= surv <= 455 then sev=2; 
    Else if 1 <= surv <= 180 then sev=3; 
    Else if surv > 2276 then delete; /* Remove outliers */ 
+0

新しいアウトライヤーを見つけることが何を意味するのかよく分かりません。もっと詳しく説明できますか?異常値の定義は正確ではなく、異常値を削除することは必ずしもベストプラクティスではありません。 – Reeza

+0

はい@Reeza、私はそれを知っています。私は、私がそれらを削除するときにどのように分布が変化するのかを感じ取ろうとしています。 SASが学生化された残差を計算する方法を知っていますか? – Jabernet

+0

残差は、モデルからの予測があることを意味します。モデル/ PROCに応じて、様々な残差を報告するオプションが通常あります。 – Reeza

答えて

0

、あなたは、あなたのデータの端にあったいくつかのデータポイントを削除して、新しいデータセットを得ました再計算されたIQRと、...新たな「異常値」があることに驚いていますか?

これは、SASが何か特別なことをしているわけではありません。1.5 * IQRのものを特定していることです。外れ値の除去は、あなたのデータに応じて、あなたが外れ値を決定し、それを削除するかどうかを決めることができます。だから、あなたはこれらの新しいデータポイントが異常値だと思いますか?削除するかどうかは、それに依存します。

+0

私は、学生化された残差を利用して影響力をチェックし、それに基づいて削除することを検討していました。私はそれを行う方法を見つけるのが難しいです。あなたは@Joeの提案がありますか? – Jabernet

+0

そのような質問は[stats.se]ではるかに優れています。 – Joe

+0

ありがとう、私はそこに尋ねます。 – Jabernet

関連する問題