私は深い学習を学び、具体的には畳み込みニューラルネットワークを使って学習しようとしています。いくつかのオーディオデータに簡単なネットワークを適用したいと思います。さて、私が知る限り、CNNは画像や物体の認識によく使われるので、オーディオを使う人は、時間領域の信号の代わりにスペクトログラム(特にメルスペクトログラム)を使うことがよくあります。私の質問は、ネットワークへの入力としてスペクトログラムの画像(すなわちRGBまたはグレースケール値)を使用する方が良いか、またはスペクトログラムの2次元の大きさの値を直接使用すべきですか?それは違いを生みますか?畳み込みニューラルネットワークの入力データ
ありがとうございます。
この情報は役に立ちましたか?[音声用の畳み込みニューラルネットワーク(CNN)](http://stackoverflow.com/a/23840568/1883727) – rrao
感謝@rrao、私はこれを見て、それは本当に私の質問に答えることはありません。私はあなたが参照した答えにも同意しません。スペクトログラムが「捨て去る」という唯一の事柄は位相情報です。 – nevos