2009-03-04 72 views
11

オープンソース、または比較的安価なJava用の音声認識APIを経験している人はいますか?私は話し言葉をテキストに変える何かを探しています。Javaの音声認識

太陽のJava音声認識のページから、それはむしろ死んでいるようです。私の要件は、少なくともLinux上で動作するものです。

誰かが何かお勧めできますか?純粋なJavaがボーナスになるでしょう。さもなければ、Linuxベースの解決策が考えられます。そして、これは家庭のプロジェクトなので...安い方がいいです。

  • 編集

CMU Sphinxの アミットは、CMU Sphinxのhttp://cmusphinx.sourceforge.net/html/cmusphinx.php を指摘したように私の問題は、大規模な単語誤り率です。トレーニングはそれ自身のプロジェクトのように思えますが、今週末に試してみるために力を集めることを望んでいます。

IBM ViaVoice
2004年にはVia Voice being made open sourceについてのニュース発表があります。ニュースリリースは時期尚早で、決して起こらなかったようだ。 VIA Voiceはある時点でreleased for linuxでしたが、停止したようです。 IBMのWebサイトに残っているようなものはすべてViaVoice embeddedです。

IBM Websphere Voice
これはViaVoice(デスクトップ)が廃止された理由です。 IBMはこの商用ソリューションを開発しました。このソリューションは、腕や足よりもコストがかかります。少なくともWebsphereとそのIDEでの経験の後、残したものを使うだけです。

Nuance
まだLinux用の製品を作成しているようです。しかし、彼らは失われてIBMをサーバー市場に追い込んだと思う。私はこのことについては確信していません、彼らのウェブサイトは有益な情報を見つけるのは友好的ではありません。

Open Mind/Free Speech
これらの人はプロジェクト名を変更し続けます。おそらく、お金の飢えた会社の一部は、彼らを脅かし続けているだろうが、私は知らない。プロジェクトは少し死んでいるように見えます。

今週末、スフィンクスを練習して友人になりたいかどうかを試してみるかもしれません。それ以外の場合は、マイクロソフトのスピーチソリューションを使用して検討します。過去にはうまくいきましたが、それは素晴らしいLinuxソリューションではありません。私はおそらくワインを使ってそれを使うことができましたが、2つの別々のサーバーがあります。

ああ、音声/音声で訪問するのに適しているようですSpeechTechMag。彼らは何らかの形で音声/言葉に関係する企業のリストを持つ「Anual Reference」を持っています。

答えて

9
+0

にして作業した後、それは実際には非常に恐ろしいです。ほとんど何も認識していない、私は恐ろしいアクセントや何かを持っているようではありません。 トレーニングはヒープの底に座っているいくつかのサードパーティデータベースのために外に出て喜んでいない限り、さらに問題と思われます。 – guyumu

+0

私はそれについて実用的な経験はありませんでした。/ –

+2

この質問はかなり古くなっていますが、私はスフィンクスの現在のパフォーマンスを教えてください。私はSphinx 4を使用してWSJモデルを適応させ、86%の精度を得ました。 – Shekhar

1

私は今、数日間同じものを探してきました。今まで私はSphinx4とFreeTTSを見つけました。どちらもJavaの実装であり、SphinxはFreeTTSとは異なり頻繁に更新されるようです。私が抱いている唯一の問題は、スフィンクスがオフィス環境で私を理解することに問題があることです。私は倉庫環境の解決策が必要です。

3

あなたが予算に達している場合、スフィンクスははるかに良い選択肢です。 しかし、の巨大なの機種はどのように調整するのですか?あなたのオーディオソースのチューニング方法。絶対にすべてが一致しなければならない、それはちょうど働かない。あなたがあなたのモデルを混ぜ合わせて、あなたのマイクが正しく校正されていないという実質的な合計を賭けることを喜んで説明した問題を考えてください。また、アクセントがあると、おそらくうまくいきません。これは、デコーダーの問題ではなく、音響モデルによるものです。似ている声/アクセントの声が訓練データに含まれていないと、結果が悪くなります。

あなたはオープンソースモデルのページを見てきましたか?あなたは16kHzのWSJモデルとgigawordのLM NVPと言論の自由の約90%の精度を得ることができるはずやろうとしているかに応じて、

http://www.speech.cs.cmu.edu/sphinx/models/

。 ASRは大規模な事業であり、まだ商品ステータスに達していないことに注意してください。

+0

私はその実現に来たと思う、それはまだ長い道のりがある。 私はアクセントを持っているか、または主観的ではない:Dしかし、そうです。 Iveは最近ubuntuの使用をやめ、Windowsのバンドワゴンに飛び乗った。私がこれを続けると、私は過去に合理的に働いていたMicrosoftのエンジンを使用できるようになると思います。しかし、最終的に...私は技術がまだまだ進んでいると思うし、10年間完全にその部分を落とすだろうと思う。 – guyumu

+0

マイクロソフトのエンジンもスフィンクスをベースにしていた。今は別のオープンソースの音声認識システムであるHTKにもっと依存していると思います。あなたのアクセントは、ASRシステムの観点からは主観的な問題ではありません。結果は、声の特性が訓練データの声の特性とどれくらいうまく一致しているかに大きく依存します。アメリカ人のアクセントに対するカナダ人の違いなど、あなたにとって些細な違いがあるかもしれませんが、ASRの質に非常に大きな影響を与えるかもしれません。最近のシステムでは同じアルゴリズムを使用していますが、違いはデータです。 – si28719e

0

私のグループは、Sphinxを使用して話し言葉を認識するためのミニプログラムをJavaで完成させました。

2

http://www.basic-signalprocessing.comからvPass(音声パスワード)をダウンロードできます。

(vText)音声からテキストの場合、vText.jarファイルを電子メールに送信できます。 Pls通知[email protected]

コンポーネントは、Javaおよび.Net言語用に設計されています。認識時間は5秒です。 VPassは十分にテストされていますvTextはまだ新しいパッケージではないので、まだパッケージ化されていません。

に関して、 アンドレアス