2016-04-11 12 views
1

最近、回帰データのラベルも正常な結果が得られるように正規化しなければならないと言われましたが、私はそれに疑念を抱いています。私は回帰と分類の両方でラベルを正規化しようとしたことがないので、その状態が真であるかどうかわかりません。この問題について私に明確な説明(数学的または経験的)を教えてください。前処理データ:回帰におけるデータラベルの正規化?

ありがとうございました。 ご協力いただければ幸いです。

+1

あなたはこれをどこで話しましたか?私はこれまでにそれを聞いたことがないし、実際それは直感的な意味を持たない。ラベル自体は、私が知っている回帰計算には使用されません。 –

+0

@JamieBull私の先輩は私に言った。私はそれは非常にばかげていると感じるので、私はそれを確認したい。また、なぜ私はそれを実行する必要がないことを彼に伝えるために堅実な説明をしたい。 –

答えて

1

「正規化」ラベルとは、意味を明確にしていません(つまり、統計的な意味で使用するのかどうかなど)。あなたは例を挙げていただけますか?あなたはtext()機能を使用するためのラベルをneatenしようとしている場合作ることに

は、データ分析 で均一にラベルを付け、あなたはそれらを短くするabbreviate()機能を試すことができ、またはformat()機能はそれらをよりよく整列します。

pretty()の機能は、プロット軸上のラベルの丸めに適しています。たとえば、ヒストグラムを描画するための基底関数hist()は、Sturgesまたは他のアルゴリズムを呼び出し、pretty()を使用して素敵なビンサイズを選択します。

scale()関数は、平均値を減算し、標準偏差で除算することによって値を標準化します。標準偏差は、一部の円で正規化と呼ばれます。

回帰のスケーリングの理由について(クエストのコメントに対する応答)共変量X1、X2、...に対してYを回帰すると仮定します。共変量をスケーリングする理由は、コンテキストに依存します。これは、各共変量の係数(効果サイズ)の比較を可能にする。これは数値精度を保証するのに役立ちます(今日では、非常に異なるスケールやデータの共変量が大きい場合を除き、通常は問題になりません)。読みやすいイントロについては、Psychosomatic medicine editors' guideを参照してください。数学的に激しい議論については、Sylvain Sardy's guideを参照してください。

特に、ベイジアン回帰では、MCMC推定の収束を確実にするために再スケーリングが推奨されます。例えばthis discussionを参照してください。

+0

ご意見ありがとうございます。ここでの正規化とは、任意のスケーリング技法(範囲0〜1または平均を引いて標準偏差で割る)を使用してデータをスケーリングすることを意味します。そして、なぜそれを行うための具体的な機能ではなく、回帰におけるデータ・ラベルのためにそれを行うべきである/してはいけない理由についての説明が必要です。 –

+0

たとえば、回帰問題のデータラベルは、1から5の範囲の数値を浮動小数点にすることができます。私の質問は、0-1の範囲にスケールするかどうかです。 –

+0

Ah。データ "ラベル"のスケーリングは、非正規の用語です。しかし**データのスケーリング**が標準です...私はリンクを含めるために私の答えを編集しました。 – slouchy

0

ラベルではない機能を意味します。

回帰または分類のためにフィーチャを正規化する必要はありませんが、場合によっては収束を早めるのに役立ちます。 this postにチェックしてください。

私の経験では、わずかな変数しか持たない線形回帰のような単純なモデルを使用すると、モデルが解釈可能なので、フィーチャをそのまま(標準化せずに)保持する方が望ましいです。

+1

ありがとうございます。フィーチャの正規化はすでにおなじみのテクニックであり、すでに多くの記事があるため、データラベルは実際には意味がありません。 –

+2

これは申し訳ありません。私はそのようなことについて聞いたことがなく、ラベルを正規化するという点は見当たりません。次の記事は、それが影響を与えない理由を説明しています:http://stats.stackexchange.com/questions/111467/is-it-necessary-to-scale-the-target-value-in-addition-to-scaling- re-features-for-re。それが役に立てば幸い。 –

+0

ご協力いただきありがとうございます。それは本当に必要な説明です。私は回帰において、ラベルが目標変数と呼ばれることを忘れていました。それで私はその投稿を見つけることができなかったのです。もう一度ありがとうといい日があります! –

0

スケールラベルが必要な場合があります。その理由は、収束が速く、数値的に不安定にならないからです。

たとえば、ラベルが(1000,1000000)の範囲にあり、重みがゼロに近い値に初期化されていると、mse損失が非常に大きくなるため、NaNエラーが発生する可能性があります。

https://datascience.stackexchange.com/q/22776/38707を参照してください。

関連する問題