2016-11-02 12 views
0

機械学習ではかなり新しいです。私は口頭で認識できるシンプルなアプリケーションを構築しています。
私はMFCCを使用して、私のオーディオファイルのフィルタリング特性を抽出しました。 MFCCは私に13 x length_of_audio行列を出力します。この情報を私の特徴ベクトルに使用したいと思います。しかし明らかに、各例は異なる数のフィーチャを有することになる。
私の質問は、さまざまな数の機能を扱うアプローチです。例えば。 PCAを使用して固定量のフィーチャを抽出し、特定の学習アルゴリズムで使用することはできますか?
ロジスティック回帰を学習アルゴリズムとして使用したいと思います。機械学習:機能の数が異なる場合のPCA

これは私が話した数字の1つを分析するときに受け取ったものです。 MFCC

答えて

0

あなたの場合、length_of_audio_matrix = Nの特徴ベクトルが13 * Nでない場合、N個の特徴ベクトルの長さは13です(シーケンスを構成しますが、ベクター)。

あなたは13個の機能のマトリックス構成する必要があります。

MFCCUser1,Slot1 
MFCCUser1,Slot2 
.... 
MFCCUser1,SlotN 
MFCCUser2,Slot1 
MFCCUser2,Slot2 
... 

をそして、あなたは、主成分分析を適用することができます。

あなたには13の機能しかありませんが、実際に減らす必要はありますか?

+0

ありがとうございますが、「あなたは13の機能しか持っていません」という意味を理解していませんか?私の質問に追加した図を参照してください、私はMFCCの "ヒートマップ"のすべての小さな四角形は、この場合は約13 *の長さの特徴ベクトルを私に与えるフィーチャだと思う* 85 – FilipR

+0

あなたの問題を理解すれば、 。フィーチャを抽出するには、信号をXミリ秒単位で分割し、その後、すべてのオーディオピースに13MFCCコンポーネントを抽出します。 PCAを使用する場合は、13の長さのMFCCコンポーネントベクトル(すべて同じ長さ)でPCAを使用する必要があります。しかし、PCAは機能の数を減らすために使用されていますが、私はそれらを減らす必要はありません。 – Rob

+0

はい、オーディオレコードがあります。各オーディオレコードは最大1秒です。私は1秒間のオーディオ・レコードを100個のオーディオ・ピースに分割しました。 MFCCは10個のオーディオピースにつき13個のフィーチャを出力します.100ピース(1秒未満のオーディオもあります) - > 1秒間に13個のフィーチャ* 100個= 1300フィーチャがあります。私の質問は、すべてのオーディオレコードが正確に1秒であるわけではないため、常に1300個の特徴ベクトルを取得するとは限らないため、PCAを使用してフィーチャの数を特定の数s.t.に減らすことができます。私はMLのalgoを適用することができますか? もう1つ良いアプローチがありますか? – FilipR