2011-08-23 13 views
9

私のアプリケーションの一環として、私は音声認識を追加しようとしていますが、実際には伝統的な意味ではありません。私は誰かによって歌われる歌詞(詩に分割された)の束を持っています、そして、考えは現在どの詩が歌われているのかをスクリーン上に表示できるようにすることです。歌唱中の連続音声認識?

私はスフィンクスで遊んだことがありますし、いくつかの基本的な例を設定して作業していますが、遅れを待って結果を処理できる音声テキストの登録については、文章を連続的に認識するという考え方には多くのものがある。これはもちろん、私は言葉が歌われ、話されていない部分に着く前です!

誰もがこれについて何か経験を持っていますか?あれがあればどこでも良いスタートポイントを提供するでしょうか?それとも、私がスフィンクスに野心的すぎる方法を達成しようとしているのですか?それは実際にはうまくいかないでしょうか?私は他の図書館を見ることはできますが、彼らは自由でなければならず、スフィンクスは私が掘り起こすことができるものの中で最も広く話されていました。

+1

私は大きな問題は、適切なトレーニングセットを得ること、または制限されたサイズからブートストラップすることにあると思います。 – Eamorr

+2

誰かがdownvoteの理由を説明できますか? – berry120

+0

検索であなたの質問を使用すると、Ggogleが[この記事](http://www.hindawi.com/journals/asmp/2010/546047/)に載っています。特定のライブラリを探しているときにはあまり役に立ちませんが、自分で何かを構築する必要がある場合は、あなたを手伝ってください。 – Wivani

答えて

3

少し遅れて発音するとすぐに音声を認識することは完全に可能です。さらに、あなたは多かれ少なかれあなたが得ることを期待して理解している場合。これは「部分結果」と呼ばれ、APIを介してすべてのCMUSphinxデコーダで利用可能です。基本的には、処理中の仮説を取り出すことができます。

あり、この結果を安定させるためにどのように考えるには少し問題がある(それの安定した部分を抽出する方法)が、この技術はバックトラックと呼ばれ、簡単に歌うために

を実装することができ、音楽をすることができ与えられましたフィルタリングされて、それも実行可能です。