2009-03-23 14 views
4

は、あなたがこのようになりますCMU's phonetic data set入力をしたいと言う:マシン:英語の発音を学ぶ

ABERRATION AE2 B ER0 EY1 SH AH0 N 
ABERRATIONAL AE2 B ER0 EY1 SH AH0 N AH0 L 
ABERRATIONS AE2 B ER0 EY1 SH AH0 N Z 
ABERT AE1 B ER0 T 
ABET AH0 B EH1 T 
ABETTED AH0 B EH1 T IH0 D 
ABETTING AH0 B EH1 T IH0 NG 
ABEX EY1 B EH0 K S 
ABEYANCE AH0 B EY1 AH0 N S 

(単語が左にある、右にkey here、音素のシリーズです)

あなたは新しい単語を取り、それがどのように英語で発音されるのかを推測する機械学習システムのトレーニングデータとして使用します。

少なくとも音素にマップできる固定されたトークンサイズの文字がないので、私にはあまり分かりません。私は、マルコフ連鎖と何かが正しい方法かもしれないと感じています。

どうすればよいですか?

+0

CMUとmobyの両方のデータは、アメリカの発音のためのもので、英国やその他の英国の品種には、非常に良い音素のセットがありません。実際、CMUとmobyデータでさえ、音素の異なるセットを持っています。 moby pronunciatorはここにあります:http://icon.shef.ac.uk/Moby/mpron.html – hippietrail

答えて

2

ニューラルネットワークを構築するのではなく、複数のレイヤーを持つニューラルネットワークを構築することもできます。以前のレイヤーでは、単語を連続した音節に分割して、後のレイヤーでその音節の発音を推測します。

ANFIS学習ニューラルネットワークを設定することは、数値データの場合はかなり簡単ですが、リテラル/発音データの場合、タスクは間違いなく複数のオーダーが複雑です。

+0

あなたは本当に可変数の出力ノードを持つNNを持つことができますか? –

+0

私は非常に速いグーグルがネットワークを別々に訓練し、いくつかの出力を達成するために組み合わせる方が簡単だと信じています。 この問題はささいなことではありませんが、実際に解決できるとは言いません。 –

+0

可変数の出力ノードが本当に必要でしょうか?音素の数が非常に多い場合を除き、できるだけ多くの出力ノードを音素として持つだけです。 – bubaker