2016-09-23 10 views
-1

変数(ベクトル、すべて同じ長さのベクトルN)があるとしましょう:X1、X2、X3、X4、X5、X6 ... Xn。および時系列Y(同じ長さN)は、いくつかの変数Xに依存します。データセットで最も意味のある変数を見つける

XのどれがYと最も相関しているかを決定するアルゴリズムが必要です。すなわち、最も意味のない変数を破棄し、影響力が最も大きい変数をYに設定する必要があります。

例:

のは、我々は、特定のITサイトのWebトラフィックに影響を与えるかを決定したいとしましょう。また、keyword1、keyword2、keyword3、keyword4、keyword5の5つのキーワードがあります。

のは、我々はGoogleの (KEY1 = X1、KEY2 = X2、KEY3 = X3、KEY4 = X4、KEY5 = X5)、および総ウェブトラフィック Y上のキーワード検索ボリュームがあるとしましょう。私は、上記のセット(X1、X2、X3、X4、またはX5)から、そのウェブサイトへの総ウェブトラフィックに最も有意義なキーワードを特定したいと考えています。どの変数を破棄し、どの変数を最も多く動かすか。 (これらのベクトルと時系列のすべてが0-100の範囲にある標準化された標準化された時系列であるとしましょう)

+0

変数のほとんどが出力Yと線形関係にあると思う場合は、段階的回帰を行うことができます。http://www.mathworks.com/help/stats/stepwisefit.htmlあなたのモデルに含める変数 –

+1

あなたはすでにこれを知っているかもしれませんが、この一般的なクラスの問題は機械学習コミュニティで*機能選択*として知られています。 [Wikipedia記事](https://en.wikipedia.org/wiki/Feature_selection)では、試してみることのできるさまざまな方法について説明しています。そのうちのいくつかはMatlabの統計と機械学習ツールボックスですぐに実装されています。 @SomeGuyが述べたように、段階的線形回帰がその一つです。もう1つの人気のあるものは[lasso method](http://www.mathworks.com/help/stats/lasso.html)です。 – khonegger

答えて

関連する問題