2017-09-22 11 views
0

MATLABのfitlmツールを使用しているデータの線形回帰を計算しようとしています。通常の最小二乗(OLS)を使用すると、かなり低いR-二乗値(〜0.2-0.5)を得ることができ、場合によっては非現実的な結果にもなります。堅牢な回帰(特にタルワール)を使用する場合、私ははるかに良い結果を得ます(R2〜0.7-0.8)。MATLAB fitlm:OLSとロバスト回帰

私は統計学者ではないので、私の質問は何ですか:何か理由がありますかは堅牢な結果がより良いと信じていますか?

以下は、一部のデータの例です。示されたデータは、OLSのR2:0.56、堅牢性:0.72を生成する。あなたはR値の顕著な違いを取得するつもりだ

enter image description here

答えて

1

一つの理由は、Talwarが異なっ外れ値を扱うことです。 Talwarは、データセットをセグメントに分割し、それぞれのセグメントの平均を計算します。

Talwarの論文の要約から撮影:線形モデルのパラメータの

」見積もりは、通常の添加剤誤差の大きな値に対して敏感であり、通常の最小二乗法(OLS)の方法によって得られます我々は係数の単純で一貫性のある、漸近的に正常な初期推定値を得る。これは多くの回帰変数を持つモデルでOLSを使用して検出することは困難なεiの大きな値からアナリストを保護する。 ' - https://www.jstor.org/stable/2285386?seq=1#page_scan_tab_contents

TalwarとOLSのどちらが優れているかは、測定プロセスに関する知識(つまり、アウトライヤーの説明方法)によって決まります。適切であれば、T検定でデータを切り取って外れ値を取り除きます(http://education.mrsec.wisc.edu/research/topic_guides/outlier_handout.pdf参照)。これは、TalwarとOLSの間に見られるRの違いを最小限に抑える必要があります。

+0

これは非常に役に立ちます。ありがとうございました! –