2011-08-11 8 views
4

最近、CMUのsphinx4を使用して転写を行い、最終的には強制的にアライメントを行います。CMUのsphinx4を使用して数字以外のデータを転記する

私が開発したかったプロジェクトを基本的に実行したAutoCapというプロジェクトが見つかりました。だから私はそれをインストールしましたが、うまくいきませんでした。私はそれを微調整しようとしましたが、私が得たのは間違ったタイムスタンプでした。

だから、私はsphinx4を使用して、それを自分自身に与えることを考えました。私は正常にスフィンクスのTranscriber.jarファイルを使用してwavファイルを転記しました。 しかし、私はそれが非数字データでオーディオのために働くことができませんでした。 readmeページの状態 '数字以外のデータを転記したい人は、正しい文法、言語モデル、および言語学者を使用するようにconfig.xmlファイルを変更してください。'

だから、誰も私にこれらのいずれかのいくつかの助けを提供することができます。

  • AutoCap
  • 非数字データを転写するSphinx4を使用して強制アライメント

感謝。

+0

このプロジェクトをもう一度やりましたか?入力を感謝します。 –

答えて

2

音声とテキストの配置に特化した特定のプロジェクトがあります。これは簡単な作業ではありません。開発は別のsphinx4ブランチで行われます。あなたはここにいくつかの詳細を見つけることができます

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

あなたは、私が現在、同じ問題、すなわちに取り組んでいます

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

0

sphinx4フォーラムで質問を歓迎しているこのプロジェクト上の任意の質問がある場合非数字データを転記する。私は、スフィンクス4のプログラマーガイドのドキュメントを簡単に見て、言語モデル、音響モデル、JSGF文法を示唆しました。得られた反応は最大ではなかった。私が信じるのは、単にconfig.xmlのパラメータや変更を調整するだけでは十分ではないということです。私たちは、より良い音声認識を行うことができるsphinx 4と一緒に行くために自家製アルゴリズムを必要とすると思います。私の側から..私はlextreeliguist、JSGFGrammarとtrigram言語モデルを使用しています。しかし、その反応は大きかったわけではありません。おそらくオーディオ入力はまったくアメリカの英語ではなかったからです。もう少し作業して、結果を知ってもらいます

関連する問題