スピーチの転写：狭帯域または広帯域？

IBM Watsonを使用すると、スピーカー認識（Person 1、Person 2）などを行うことができます。スピーチの転写：狭帯域または広帯域？

これは狭帯域モデルでのみ機能します。正確な転写産物を犠牲にするのではなく、涼しいです。狭帯域モデルを選択すると正確さが低下するのですか？私は映画の対話を書き写しています。

2017-01-11 Ashbury

-1

スピーカーの認識が必要な場合は、ナローバンドが唯一のオプションです。

スピーカーのラベルが備わっていますが、現在、米国英語、スペイン語、および日本語狭帯域モデルのみのために利用可能であるベータ版の機能です。

今後ブロードバンドモデルに展開される可能性があります。その場合、ブロードバンドモデルはムービーダイアログの方が適しています。

ナローバンドの精度が大幅に低下するとは思わないでしょう。これに対して主なノックは、同じ品質の結果を出すためには（ワトソンのサービスによって）より多くの作業が必要であるということです。

いつでも両方の方法で（speaker_labelsを使用せずに）クリップを転写し、正確さが異なる場合は、結果を比較して自分自身で確認することができます。

2017-01-11 15:21:45

答えて