2016-11-12 13 views
0

私はスペイン語でcmusphinxしようとしています。私はスペイン語のモデルと辞書をダウンロードしましたが、精度は悪いです...cmusphinxの辞書から単語を削除するにはどうしたらいいですか?

"es.dict"からすべての単語を削除しました。そして、精度は100%に変わります(単語の99%を削除します...)。

しかし、この変更によってパフォーマンスに別の問題が発生しました。私はシステムがファイル "es-20k.lm"の各単語を読み込もうとしていると思います。

私の出力は、各取り外した単語のためにこれを示す: 「2016年、11月12日11時05分14秒PM edu.cmu.sphinx.linguist.dictionary.TextDictionary getWord 情報:辞書は、単語の音声表記が欠落しています'argumento' "

スペイン語モデルで使用されていない単語を削除するにはどうすればよいですか?可能です? 私は、このモデルの辞書を修正し、未使用の単語を削除したいだけです。 (私はこの時点で約50語しか欲しくない)。

私はドキュメントに示唆されたツールを試していましたが、私はそれを理解していないか、どうやって見ていません。

ありがとうございました。

答えて

1

辞書は同じにしてください。テキストエディタで文法を記述するか、language model tutorialのようにsrilmを使用して言語モデルを構築する必要があります。

全体的に言えば、語彙を減らすことは精度を向上させる唯一の方法ではなく、通常、ノイズ、記録条件の不一致およびその他の要因による不正確な精度です。あなたもそれらに取り組む必要があります。

関連する問題