私は、特定のスピーカーにモノフォンベースの認識装置を適用しようとしています。私はHTKBook 3.4.1 section 3.6.2
で与えられたレシピを使用しています。私はSPのように起動していHHEd
一部の上に立ち往生しています:HTKによるスピーカーの適応
HHEd -A -D -T 1 -H hmm15/hmmdefs -H hmm15/macros -M classes regtree.hed monophones1eng
を次のように私はで終わるエラーは次のとおりです。
ERROR [+999] Components missing from Base Class list (2413 3375)
ERROR [+999] BaseClass check failed
フォルダclasses
が持つファイルglobal
が含まれています以下の内容:
~b ‘‘global’’
<MMFIDMASK> *
<PARAMETERS> MIXBASE
<NUMCLASSES> 1
<CLASS> 1 {*.state[2-4].mix[1-25]}
hmmdefs
内のファイルhmm15
にはいくつかの混合成分がありました(各電話の状態ごとに25個の混合成分を使用しています)。私はランダムな平均値と分散値を持つ混合成分を与えることによって "空白を埋める"ことを試みましたが、ゼロの重みを与えました。これも効果がありませんでした。
hmmsは、5つの状態(3つの発光)を有する左右のhmmであり、各状態は25の成分混合物によってモデル化される。各コンポーネントは、EDAコンポーネントを備えたMFCCによってモデル化されています。全部で46台の携帯電話があります。
私の質問は:
1.私はHHEd
を呼び出す方法は正しいですか?それは単音のための上記の方法で呼び出すことができますか?
2.私は、基本クラスリスト(rtree.base
は、すべての単一の混合成分を含まなければならないことを知っているが、私はこれらの行方不明の混合成分を見つけるのですかどこ
注:?私は場合に、より多くの情報が必要とされているお聞かせください
。編集1:ファイルregtree.hedには、次のものが含まれています方法
RN "models"
LS "stats_engOnly_3_4"
RC 32 "rtree"
おかげで、
スリラム
返信いただきありがとうございます。私は 'regtree.hed'を質問に追加しました(上記の編集1を参照)。また、hmmが訓練されたデータはかなりのものです。 WSJ英文の全文データベース(20k文)、300字程度のアメリカ英語、およそ500-600文のインド英語(上のすべてはいくつかの単語の発音を変えるアクセントを指しています)を使って練習しました。私はWSJデータベースからHMMを訓練してきました。私はすでに25の混合物を持っていたHMMs。それらを減らす方法はありますか? – Sriram