2016-06-18 12 views
1

私は深い学習を学び、具体的には畳み込みニューラルネットワークを使って学習しようとしています。いくつかのオーディオデータに簡単なネットワークを適用したいと思います。さて、私が知る限り、CNNは画像や物体の認識によく使われるので、オーディオを使う人は、時間領域の信号の代わりにスペクトログラム(特にメルスペクトログラム)を使うことがよくあります。私の質問は、ネットワークへの入力としてスペクトログラムの画像(すなわちRGBまたはグレースケール値)を使用する方が良いか、またはスペクトログラムの2次元の大きさの値を直接使用すべきですか?それは違いを生みますか?畳み込みニューラルネットワークの入力データ

ありがとうございます。

+0

この情報は役に立ちましたか?[音声用の畳み込みニューラルネットワーク(CNN)](http://stackoverflow.com/a/23840568/1883727) – rrao

+0

感謝@rrao、私はこれを見て、それは本当に私の質問に答えることはありません。私はあなたが参照した答えにも同意しません。スペクトログラムが「捨て去る」という唯一の事柄は位相情報です。 – nevos

答えて

1

スペクトログラムは、特にプロセスを説明するための素敵な表現です。機能的には、情報を追加しない入力データを単純化したものに過ぎず、正確さに乏しいものはありません。おそらく問題はありません。前処理は何も買わないので、2次元データを使ってCNNにそこから物事を取り込ませてください。

+0

ありがとう@Prune!入力データによって、2D STFT行列が正しく表示されますか?元の時間領域のデータではありません。 – nevos

+0

あなたは元のデータでそれを行うことができましたが、NNの複雑さと訓練時間を考えるのは嫌です - 間違いなくQ-learningの問題です! – Prune

+0

すばらしい、ありがとう! – nevos

0

通常、イメージにはローカルパターンがあります。それは非常に自然なので、畳み込みウィンドウを適用することでいくつかのローカル接続機能を抽出できます。時間または周波数領域でスペクトルの画像を使用すると問題はありません。しかし、すばらしい質問は、スペクトルデータを直接使用するとどうなりますか? 私は、文脈を与える次の単語予測でCNNを適用したプレゼンテーションを見ました。そのことで、入力は単語ベクトルです。もっと重要な数字。だから彼らはCNN層(長方形フィルタ)を使って特徴を抽出しています。 この場合、データに何らかの種類の自然なパターンが生成されている場合、これは完全にうまくいきます。

関連する問題