Watson Speech To Textサービスは、どの種類のオーディオファイルに対してより速く動作しますか？

私はWAVファイルだけでなくMP3のためにWatson Speech to Text APIを試しました。私の見解によれば、同じ長さのオーディオは、WAVに比べてMP3形式で与えられる場合、時間がかかりません。異なるオーディオを使用する連続した10回のAPI呼び出しでは、MP3ファイルの平均8.7秒がかかりました。一方、WAV形式の同じ入力は平均11.1秒かかりました。サービスの応答時間はファイルの種類によって異なりますか？どのファイルタイプを使用して結果をより速く取得することをお勧めしますか？Watson Speech To Textサービスは、どの種類のオーディオファイルに対してより速く動作しますか？

出典

2017-12-06 ShwetaJ

どのように測定していますか？これはアップロード後かネットワーク時間を含む後ですか？ –

ネットワーク時間を含む。 2〜3秒でネットワークのパフォーマンスを考慮する必要はありません。いずれにしても、MP3はWAVよりも速く動作します。そのため、パフォーマンスがファイルタイプの影響を受けるかどうかを知りたい – ShwetaJ

mp3ファイルは通常wavよりも小さいので、私は尋ねています。 2つのケースでどれだけのデータが転送されたかを確認しましたか？ –

異なるエンコーディングフォーマットのビットレートが異なります。 mp3とopusは非可逆圧縮形式です（ビットレートが低すぎない場合は音声認識に適しています）ので、最も低いビットレートを提供します。通常はレイテンシの方が良いネットワーク上のバイト数を少なくする必要がある場合は、ネットワーク速度に応じて、より低いビットレートでエンコーディングを使用すると処理時間が短縮されます。

しかし、実際の音声認識プロセス（ネットワーク上のデータ転送を無視する）に関しては、認識が開始される前にすべての音声が圧縮されており、必要に応じて音声が非圧縮であり、（広帯域または狭帯域）。

出典

2017-12-07 03:10:01

ありがとうございます。私は私の質問に答えると思う。これは要件に完全に依存します。低レイテンシが望まれる場合は、ロッシー符号化フォーマットを使用することができる。精度が最も重要であり、レイテンシが許容範囲内であれば、ロスレス符号化フォーマットを使用する必要があります。 – ShwetaJ

ただし、許容ビットレートを使用すると、opusなどの損失の多いフォーマットは、測定可能な方法で精度を低下させません。 opusを使用すると、両方の世界のベストを得ることができ、最高の待ち時間と正確さの損失はありません。キーは適切なビットレートを選ぶことです：これは、https://wiki.xiph.org/Opus_Recommended_Settingsで始めることができる値を持つ良いリストです。これはまた別の興味深いリソースです：http://opus-codec.org/comparison/ –

入力いただきありがとうございます！ – ShwetaJ

Watson Speech To Textサービスは、どの種類のオーディオファイルに対してより速く動作しますか？

答えて

関連する問題