私はWAVファイルだけでなくMP3のためにWatson Speech to Text APIを試しました。私の見解によれば、同じ長さのオーディオは、WAVに比べてMP3形式で与えられる場合、時間がかかりません。異なるオーディオを使用する連続した10回のAPI呼び出しでは、MP3ファイルの平均8.7秒がかかりました。一方、WAV形式の同じ入力は平均11.1秒かかりました。サービスの応答時間はファイルの種類によって異なりますか?どのファイルタイプを使用して結果をより速く取得することをお勧めしますか?Watson Speech To Textサービスは、どの種類のオーディオファイルに対してより速く動作しますか?
答えて
異なるエンコーディングフォーマットのビットレートが異なります。 mp3とopusは非可逆圧縮形式です(ビットレートが低すぎない場合は音声認識に適しています)ので、最も低いビットレートを提供します。通常はレイテンシの方が良いネットワーク上のバイト数を少なくする必要がある場合は、ネットワーク速度に応じて、より低いビットレートでエンコーディングを使用すると処理時間が短縮されます。
しかし、実際の音声認識プロセス(ネットワーク上のデータ転送を無視する)に関しては、認識が開始される前にすべての音声が圧縮されており、必要に応じて音声が非圧縮であり、 (広帯域または狭帯域)。
ありがとうございます。私は私の質問に答えると思う。これは要件に完全に依存します。低レイテンシが望まれる場合は、ロッシー符号化フォーマットを使用することができる。精度が最も重要であり、レイテンシが許容範囲内であれば、ロスレス符号化フォーマットを使用する必要があります。 – ShwetaJ
ただし、許容ビットレートを使用すると、opusなどの損失の多いフォーマットは、測定可能な方法で精度を低下させません。 opusを使用すると、両方の世界のベストを得ることができ、最高の待ち時間と正確さの損失はありません。キーは適切なビットレートを選ぶことです:これは、https://wiki.xiph.org/Opus_Recommended_Settingsで始めることができる値を持つ良いリストです。これはまた別の興味深いリソースです:http://opus-codec.org/comparison/ –
入力いただきありがとうございます! – ShwetaJ
- 1. Watson Text to Speech blank
- 2. IBM Watson Speech to Text and webm
- 3. IBM Watson Speech to Textサービスへの非同期Python HTTPポストリクエスト
- 4. Watson Nodejs Speech To Text - train言語モデル
- 5. node.jsにWatsonのtext-to-speech APIを使用するには?
- 6. WebSocketを使用してWatson Speech To Textにエラーが発生しました
- 7. IBM Watson Speech to Speech APIはありますか?
- 8. React-Native Speech to Text
- 9. どのようなTTS(Text-To-Speech API)サービスが存在しますか?
- 10. WebSocketを使用したIBM Watson Speech to Text
- 11. WatsonのSpeech-To-Text Unity SDKでは、どのようにキーワードを指定できますか?
- 12. Cordovaのtext-to-speechプラグインが動作しない
- 13. Speech to Text Android App
- 14. Android Vietnamese Text to Speech?
- 15. androidのSpeech to text API
- 16. iOS Appsにはどのような種類のオーディオファイルを使用しますか?
- 17. project-intoには、4つのサービスSpeech to Text(STT)、Natural Language Classifier(NLC)、会話、およびText to Speech(TTS)がすべて必要ですか?
- 18. android wearでAndroid Text to Speechを実行していますか?
- 19. text to speechが動作していないようで、logCatにエラーメッセージがありません
- 20. text-to-speech C++ mac/windows
- 21. VB.NET Text to Speech and Multiple Languages
- 22. Gcloud、ruby on rails、speech to text
- 23. Google Speech to Textの仕組みは?
- 24. ノードを持つIBM Watson Speech to Text API。 DOMへの出力方法
- 25. Android Speech to Text API(Recognizer Intent)とGoogle Cloud Speech APIの違いは?
- 26. TTS(Text to Speech):自分のクラスのマネージャー
- 27. Text-to-Speech(TTS)の無料SaaSをお探しですか
- 28. どのオーディオファイルがより速くストリーミングされますか?
- 29. GoogleからSpeech to TextへのText To Speechサービスに文字列を渡すことができません。助けが必要
- 30. asp.netプロジェクトのASP.NET "Text to Speech"アプリケーション
どのように測定していますか?これはアップロード後かネットワーク時間を含む後ですか? –
ネットワーク時間を含む。 2〜3秒でネットワークのパフォーマンスを考慮する必要はありません。いずれにしても、MP3はWAVよりも速く動作します。そのため、パフォーマンスがファイルタイプの影響を受けるかどうかを知りたい – ShwetaJ
mp3ファイルは通常wavよりも小さいので、私は尋ねています。 2つのケースでどれだけのデータが転送されたかを確認しましたか? –