データセットは、すべてのパラメータに対して正規分布にする必要がありますか？

申し訳ありませんが、私は機械学習を始めました。だから、この質問は私が避けることができないことを恐れている無知に聞こえるでしょう。また、私は自分の能力を最大限に捜して、私の質問に答えるかもしれない同様の質問や答えを見つけることができませんでした。データセットは、すべてのパラメータに対して正規分布にする必要がありますか？

モデルが正規分布を持つデータセットではないかどうかを学習できないことを知りました。また、データセットが正常に分散されているかどうかを調べるために使用する唯一の方法は、各パラメータについてhereと記載されているグラフィカルメソッドです。それはお勧めできないかもしれません、もしそうなら私はいつも変更の対象ですので、そうであれば私を修正してください。

私の質問には、特定のパラメータの正規分布が表示される場合は、まだいくつかの他の人は、データセットに欠陥があるという意味ですか？それとも、モデルにこれらのパラメータを使用すべきでないということですか？

ご迷惑をおかけして申し訳ありませんが、私の概念の理解に根本的な誤りがある場合。

出典

2017-01-12 Isamu Isozaki

「モデルが正規分布を持つデータセットではないかどうかをモデルが知ることができないことを知りました。」 - >はモデルによって異なります。'いくつかのパラメータに対して正規分布を見ても、他のいくつかのパラメータではない場合、データセットに欠陥があるのですか？' - >いいえ、その特定のモデルがあなたのデータに適していないことを意味します。あなたは別のものを見つけなければならないかもしれません。 – cel

ありがとう、私はモデル選択のコンセプトがあなたのおかげで少しうまくいったことを理解したと思う。 –

+ cel AdaBoost Regressorがこの質問に記載されている種類の配布に有効かどうか質問できますか？また、何もない場合、それはいいですが、そのような場合に使用できるモデルのリストがありますか？上記の状況に対してモデルが有効であるかどうか判読するための経験則か？ –

セル氏によると、すべてのモデルにはそれぞれ独自の前提と制限があります。完全に正常に分散しているデータだけで学習できるモデルがあるかもしれませんが、SVMやランダムフォレストなど、たくさんあるモデルはありません。

実際にデータがモデルの前提条件に準拠していないことがわかっている場合は、別のモデルの使用を検討したり、想定に合わせてデータを操作したりすることができます。後者のオプションは、現実のシナリオで使用されたときに操作がモデルを役に立たなくしないように慎重に検討する必要があるものです。

出典

2017-01-12 15:05:23 ginge

親愛なる、または奥さんありがとう –

私はこれも同様にセルに尋ねました。しかし、AdaBoost Regressorがこの質問に記載されている種類の分布に対して有効であるかどうか尋ねることはできますか？また、何もない場合、それはいいですが、そのような場合に使用できるモデルのリストがありますか？上記の状況に対してモデルが有効であるかどうか判読するための経験則か？ –

@ Bob - 正規分布していないパラメータがあるデータセットを扱うことができる回帰モデルを求めていますか？最も一般的な回帰モデルは、そのようなデータセットで作業することができます。 Adaboostについて：これはメタレグレッサーであり、その基本見積もりだけがあなたの懸念に関連しています。 – ginge

データセットは、すべてのパラメータに対して正規分布にする必要がありますか？

答えて

関連する問題