2011-12-29 16 views
1

音声認識は、私の現在のプロジェクトの多くの機能の1つで、J2EEで開発された可能性が最も高いです(選択肢が正しければ他の言語も歓迎されます)。CMU Shinx、JSAPI、Google Speech APIを使用した音声認識

googleSOのリンクのほとんどは、上記の3つのオプション、Sphinx 4、JSAPIとGoogle Speech API(Googleにサーバーコールを行い、結果をテキストとして取得する)の3つのオプションを示しています。

その他の無料のオプションは何ですか?そして、もし私がSphinx-4を使っていたら、どのようにして一般的な英語の言語モデルを使うのですか?

答えて

3

はい、あります。

  1. 基本的なコード行であるGoogle音声認識機能のラッパーを使用することは可能です。スピーチオーディオをFLACまたはSPEEX形式で送信し、認識と信頼スコアを受け取ります。唯一の問題は、Google翻訳と同様にGoogleがAPIを終了できることです。
  2. その他のオプションは、Sphinx(Sphinx4またはPocketsphinx)を使用することです。
  3. HTK(http://htk.eng.cam.ac.uk/)を使用し、HVite(HTKデコーダ)などのJulius(http://julius.sourceforge.jp/)を使用することができます。 。音響モデルや言語や文法の訓練にHTKを使用する他のオプションもあります。

Voxforgeには、HTKとSphinx(http://voxforge.org/)の音響モデルと言語モデルがあります。

+0

です。 HTKはC言語であり、J2EEには適していません。また、アプリケーションで自由に使用することもできません。 VoxforgeはHTKやSphinxの言語モデルを提供しません。 –

+0

もしVoxForgeがSphinxをサポートしていないのであれば、彼らがモデルを提供する理由よりも、このリンクを参照してください。http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/ディクテーションアプリケーションを作成するために使うべきものSphinx4 ..... – aProgrammer

2

私がSphinx-4を使用している場合、どのようにして一般的な英語の言語モデルを使用するのですか?

CMUSphinxのWebサイトや他の場所からダウンロードできます。あなた自身で構築することもできます。可能な場所の一つは、この答えは誤解を招く

http://www.keithv.com/software/csr/

+0

上記のリンクからダウンロードすべきバージョンは.... readme.txtの3,4,5のステップをplzで説明できますか?どのようにこれらのモデルをディクテーションアプリケーションを構築するために使用できますか? – aProgrammer