2012-01-18 6 views
1

サーバー側で音声認識を実装する方法(HTML5's x-webkit-speech、javascriptなどは提案しないでください)?プログラムはオーディオファイルを入力として受け取り、十分な正確さでオーディオファイルのテキスト転写を提供します。私が使用できるオプションは何ですか?音声認識サーバーを設定するにはどうすればよいですか?

私はSphin4 with Voxforge modelを実装しようとしましたが、精度が非常に悪い(私の設定で問題があるかもしれませんが、まだ習っています)。ある記事では、<input name="speech" id="speech" type="text" x-webkit-speech />を使用すると、入力は外部サーバーとそのサーバーよりもサーバーに送信され、そのデータがブラウザーに返されます。

どうすればそのサーバーを設定できますか?既存のオープンソースサーバは、エラー率の低い英語文を認識できる場合にも便利です。

答えて

1

いくつかの問題があります。 1.クライアントでオーディオをキャプチャする方法。 2.これらのオーディオをサーバーに転送する方法。 3.認識のしくみ。 4.認識と信頼スコアを戻す方法。 5.あなたはこれらの認知度と信頼度(あなたのアプリケーション)をどうするつもりですか?

最初のケースでは、誰かがマイクアイコンをクリックして何度か音声を録音するというGoogleのアプローチを使用できます。または、iPhone Siri。VADを使用してオーディオを録音します。

第2に、基本的なTCP/IPファイル転送の問題です。 FlacまたはSpeexを使用してAppleの/ Googleのアプローチとオーディオファイルを圧縮することも可能です。

第3に、これは本当に難しい部分です。あなたはVoxforgeから得ることができるものよりはるかに優れた音響モデルが必要です。これは、Siriのような文脈自由な連続的な音声認識にとって特別なことです。コマンドの場合、Voxforgeは問題ありません。

これは別のファイル転送の問題です。

5番目はアプリケーションです。

難しい部分は音声認識部分です。多分、他の問題は何千人ものユーザーのためにこれを拡大する方法です。 Julius音声認識を音声クライアントとして使用して、音声をキャプチャすることができます。私たちはこの問題について個人的にもっとチャットすることができます。ホットメール.COM @

LFU 20

ルイスUebel

ASR研究所

www.asrlabs.com.br

+0

私が開発しようとしているアプリケーションは、サーバーにインストールされ、 'デコードされたテキストはアプリケーションの他のモジュールによって使用されるこのモジュールの出力になります...私はVoxForgeとHUBを使ってSphinx4を設定しようとしました...しかし、これまでのところ何も動作していませんhttp://stackoverflow.com/questions/8727389/dictation-application-using-sphinx4、お願いします... – aProgrammer

1

Chromeでは、そのサーバーはGoogle独自のサーバーです。自分のバージョンを自分で設定することはできません。人々はサーバへの呼び出しをリバースエンジニアリングしています(例についてはhttp://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/を参照してください)。しかし、GoogleはいつでもAPIを変更したり、アクセスを制限したりする可能性があるため、これは商用アプリケーションや商用アプリケーションにとっては良い考えではありません。ここで

は、別の質問に答え古いですが、それは役に立つかもしれ - あなたは、アプリケーションのhttps://stackoverflow.com/a/6351055/90236

3

どのような種類を実装していますか?ユーザーの音声入力をテキストに変換するアプリケーションの目的は、単純なコマンドを理解することだけですか? Sphinx4のようなシステムは、音声の転写のための統計的モデルを使用します。文法を使用してASRの検索スペースを制限して認識を向上させる自動音声認識(ASR)システムの場合と同じように、これらのタイプのシステムでは優れた認識は得られません。統計モデルを使用するシステムでは、適切な認識を得るために多くのチューニングと試行が必要です。

私が知っている唯一のオープンソースASRはSphinx4です。 Nuanceが市場で最大の商用製品/サービスが数多くあります。いくつかの商用製品には、認識率が低い場合にメッセージを転記するために人間を含めるオプションがあります。

Googleには、Google Voiceなどのサービスで内部的に使用される非公式のAPIがあり、参照するウェブキットで使用されているのと同じだと思います。 Google Voiceはボイスメールメッセージを受け取り、テキストをメールで送信します。 Google Voiceは、転写の芸術の最先端と見なされますが、あなたがVoiceアカウントを持っている場合、転写されたメッセージはそれほど大きくないことがわかります。ここにはa link to a blog article on using the unofficial Google Speech APIがあります。

+0

それがテキストにユーザーの声を転写ディクテーションアプリケーションになります私はSphinx4を設定しようとしていますが、これまでには成功できませんでした。http://stackoverflow.com/questions/8727389/dictation-application-using-sphinx4 – aProgrammer

関連する問題