2016-05-23 9 views
0

GMMを使用してテストセットを分類しようとしています。私はラベル{1,2,3}の列車セット(n * 4行列)を持っています、nは4つの特性を持つトレーニング例の数を意味します。また、分類されるテストセット(m * 4)もあります。GMMとMATLABを使用した分類

私の目標は、各ラベルを与える試験例ごとに確率行列(m * 3)を持つことです。P(x_test|labels)。ソフトクラスタリングと同じように。

まず、全トラックセットにわたってk = 9の成分でGMMを作成します。私はいくつかの論文で知っている、著者はtrainsetの各ラベルのGMMを作成します。しかし、私はすべてのクラスのデータを扱いたい。

GMModel = fitgmdist(trainset,k_component,'RegularizationValue',0.1,'Start','plus'); 

私の問題は、コンポーネントとラベルの間の関係P(component|labels)を確認したいと思います。だから私は以下のようにコードを書くが、それは正しいですかどうかわからない、

idx_ex_of_c1 = find(trainset_label==1); 
    idx_ex_of_c2 = find(trainset_label==2); 
    idx_ex_of_c3 = find(trainset_label==3); 

    [~,~,post] = cluster(GMModel,trainset); 
    cita_c_k = zeros(3,k_component); 
    for id_k = 1:k_component 
     cita_c_k(1,id_k) = sum(post(idx_ex_of_c1,id_k))/numel(idx_ex_of_c1); 
     cita_c_k(2,id_k) = sum(post(idx_ex_of_c2,id_k))/numel(idx_ex_of_c2); 
     cita_c_k(3,id_k) = sum(post(idx_ex_of_c3,id_k))/numel(idx_ex_of_c3); 
    end 

cita_c_kは関係を格納する(3 * 9)行列です。 idx_ex_of_c1は、trainsetのラベルが '1'の例のインデックスです。

テストプロセスです。私が最初に

[P,~] = posterior(GMModel,testset); % P is a m*9 matrix 

そして、合計のすべてのコンポーネント、

P_testset = P*cita_c_k'; 
    [a,b] = max(P_testset,3); 
    imagesc(b); 

結果がOKである、しかし、十分ではないがTESTSETするGMModelを適用します。誰も私にいくつかのヒントを与えることができますか

ありがとうございます!

+0

(常に)時系列を訓練する時間遅延ネットワークを使用して、直接のポイントではなく、訓練しますあなたのGMMのためのnents?実際には、5〜7個のコンポーネントしか使用しない非常に複雑なトレーニングセットがありました。 – GameOfThrows

+0

最高のパフォーマンスを発揮できるコンポーネントの数がわかりません。多分あなたは正しいです。最適な#成分を見つけるつもりです。 –

答えて

0

あなたは、次の手順を実行します。

  1. 増加目標誤りを、および/またはトレーニングに最適なネットワークサイズを使用していますが、トレーニングを介して、ネットワークのサイズの増加は、通常

  2. を助けにはなりません
  3. トレーニング中に訓練データをシャッフルし、訓練するラベルに重要なデータポイントのみを使用する(複数のラベルに属する可能性のあるデータポイントを無視する

分離

相関を使用してプロパティを使用してデータの分離を確認。ラベル(X)内のすべてのデータの

  1. 相関は、ラベル(!= X)のデータとラベル(X)内のすべてのデータの
  2. 相互相関は低くあるべきである(1に近い)高くなければなりません(0に近い)。

ラベル内データポイントラベル全体に低い相関のデータポイントを持っている高い相関を持っていることを確認した場合 - それは実際にはないでしょう性質があるかもしれない(プロパティの選択に疑問を置きますデータを分離可能にする)。そうであることは、次のとおりです。

  1. データポイントに多くの関連するプロパティを追加し、以下の関連するプロパティを削除(これを使用する技術はPCAある)
  2. 使用を導出されたパラメータのようなトップ周波数成分をなどからデータポイントは
  3. は、なぜあなたは9コンポを選んだ
関連する問題