2017-07-25 2 views
2

Microsoft Bing Speech APIは、フルワードではなく数字と文字のみを返すように設定できますか?数字/文字のみを返すようにMicrosoft Bing Speechを設定できますか?

このユースケースでは、カナダの郵便番号を翻訳しています。 Ex。 M 1 B 0 R 3. Microsoftは "Em 1 Be 0 Are 3"を返します

私たちのオーディオファイルは8000hzで、 "M-ULAW"でエンコードされています。サンプルレートやエンコーディングを自由に変更することはできません。私たちは "SMD"シナリオを使用していますが、これが何をしているのかに関するドキュメンテーションは見つかりません。基本要求URI:

https://speech.platform.bing.com/recognize?scenarios=smd&appid=D4D52672-91D7-4C74-8AD8-42B1D98141A5&device.os=your_device_os&version=3.0

は、このユースケースについては、Microsoftからのより正確な応答を取得する方法はありますか?

はあなたがcustom language modelを作成して使用する(以前にカスタム認識インテリジェントサービス、またはCRISとして知られている)Microsoft's Custom Speech Serviceを使用して試みることができるあなたに

答えて

1

ありがとうございます。

guidelines for transcription of custom language models「共通頭字語は、文字間にピリオドやスペースを入れずに1つのエンティティとして残してもかまいませんが、他のすべての頭字語はそれぞれの文字を1つのスペースで区切って別々の文字で書き出す必要があります。 :あなたが簡単に例の数千人を含むファイルを生成することができます

M 1 B 0 R 3 

Original text    After normalization 
-----------------------  --------------------------- 
play OU812 by Van Halen  play O U 8 1 2 by Van Halen 

だから、彼らのガイドラインに従って、カスタム言語モデルは、それぞれの行は次のようになりますファイルになりますあなたが言っている。これにより

[ABCEGHJKLMNPRSTVXY][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9] 

(上記の式はthis answer about validating postal codesから取得されます。)

:正規表現の形式で次のようになりますコードの構造に基づいて、カナダの郵便番号のレコグナイザーあなたが人々に何を言いたいと思うのか、サウンドに複数の可能性があるときに選択するのを手助けします(例: "U"対 "あなた")。私はそれがあなたが得る結果に大きな違いをもたらすと思う。

+0

私は何をしましたか?言語モデルのデータセットで考えられるすべての郵便番号のファイルではなく、カナダの郵便番号プレフィックス(M1B、M8X、B3Lなど)の改行で区切られたファイルをアップロードしました。結果はまだ完全ではありません。例えば、「R 2 G」はまだ「R 2 C」として転写されている。私はAcoustic Language Modelがより良い賭けかもしれないと思うが、それは多くの、多くのサンプルオーディオファイルの集まりを必要とするだろう。 –

+0

私は、特にあなたがμ-law/mu-lawエンコーディングを使用していることを忘れていました。独自の音響モデルを作成することも役に立ちます。私はカスタム言語モデルがあなたができる最高のものになると思う。いくつかの認識システム(例えば、ポケットフィックス)では、統計言語モデルとは対照的に文法を指定することができます。これも試してみる価値があります。 –

関連する問題