データの処理に複雑すぎるモデル

データを処理する人には、「データを十分に拷問すれば、ほとんど何でも告白されます」というメッセージがあります。これはBoferroniの定理によって数学的に支持されています。これは、「統計的検定の数が増えるにつれ、誤った有意な発見（I型エラー）の可能性も増す」と述べています。例えば、Principles of Data Miningで与えられた状況が知られている。「よく知られているスタンダード＆プアーズ500財務指標の年間価値のほぼ完全な予測を達成したLeinweber（個人的なコミュニケーション）によって、このような予測の1つのユーモラスな例が提供されたバングラデシュと米国ののバター生産、チーズ生産、およびヒツジ集団の年間値の関数として、データの処理に複雑すぎるモデル

あまりにも複雑なモデルを使用すると実用的な状況に遭遇しましたが、結果は誤っていましたか？このような状況を、あなたが使ったアプローチと一緒に提示できますか？

出典

2009-07-30 lmsasu

私の経験では、主な問題は統計的方法を間違った方法で使用していることです。 1つの一般的な間違いは、テストするデータを事前に決定することではありません。ある教授は、これを、あらかじめ決められた場所ではなく、あなたの馬が前に立っているときに、フィニッシュの写真を撮る競馬と比べて聞いた。これは医学研究では非常に一般的です。

私が知っている別の例は、誰かがデータが正常に配布されていると仮定した統計的テストを行った場所です。

統計的な依存性は因果的なものではないと考えてください（例えば、フランクフルトでは、HIVと飛行機の騒音の間に依存性があります。

基本的にモデルの複雑さではありません。あなたは正しい方法で正しいデータを使用しなければなりません。それは十分難しい。テストする前にデータを決定する必要があります。これをチェックしたい場合は、ダイスロールやコインフリップのフェアネステストをしてください。各ロール/フリップの後にすべてのデータでそれを行います。あなたはいつもそれがあなたの死が公正でないことを示すでしょう。もちろん、ダイの公平性に関する多数の独立したテストを行うと、彼は不公平であることを示すものがありますが、これは統計的テストで予想されるエラーです。

統計的検査のもう一つの非常に基本的なこと：あなたの仮説が言っていることを確かめてください。テストによっては、あなたが望むものを表示することができない場合もあります。拒否できない場合もあります。

要するに、何らかの考えや教育をせずにデータマイニング/統計分析をしないでください。統計の仕組みは、人間にとっては直感的ではなく、あなたは（自分自身や他の人たち）簡単に不正行為をすることができます。

出典

2009-07-30 07:12:52

優秀な回答...ありがとうございます。 – lmsasu

データの処理に複雑すぎるモデル

答えて

関連する問題