1
深い神経ネットワーク、特にLSTMを勉強し、私はこのリンクで提案されているアイデアに従うことにしました:Building Speech Dataset for LSTM binary classification MFCCで抽出された特徴を持つLSTMによる音声認識
私は、各配列が単語の各音素であるMFCCを抽出する機能を備えたオーディオベースを持っています。 トレーニングデータは次のようになります:レタリングで
X = [[phon1fram[1][1], phon1fram[1][2],..., phon1fram[1][56]],
[phon1fram[2][1], phon1fram[2][2],..., phon1fram[2][56]], ....
[phon1fram[15][1], phon1fram[15][2], ..., phon1fram[15][56] ] ]
...
...
[[phon5fram[1][1], phon5fram[1][2],..., phon5fram[1][56]], ... ,
[phon5fram[15][1], phon5fram[15][2], ..., phon5fram[15][56]] ]
確かに最初のフレームラベルである「仲介」とだけ最後のフレームが実際に音素を表すと言うことでしょうか?
Y = [[0, 0, ..., 0], #intermediary
[0, 0, ..., 0], ... , #intermediary
[1, 0, ..., 0]] # is one phoneme
[[0, 0, ..., 0], ... #intermediary
[0, 1, ..., 0] # other phoneme
これは本当に正しいですか?最初のテストでは、期待していたすべてのアウトレットを実行して、この "仲介人"に最も一般的であるというラベルを付ける傾向がありました。それ以外の方法は使用できますか?
可能であれば、あなたはgithubレポを共有してください、私は非常に似たようなことをしようとしています –