私は、ユーザーがフレーズを言い、ユーザーのアクセント(ボストン、ニューヨーク、カナダなど)を検出できるモバイル/ Webアプリケーションの構築の可能性についていくつかの調査を行ってきました。ユーザーが言うことができる約5〜10の定義済みフレーズがあります。私は、Speech to Text API(Nuance、Bing、Googleなど)のいくつかに慣れていますが、この追加の機能を提供するものはありません。私が見つけた最も近い例は今、GoogleやMicrosoftの話者認識のAPIです:アクセント検出API?
http://www.androidauthority.com/google-now-accents-515684/
https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api
私はマシンを使用してと思っています5-10事前に定義されたフレーズがあるように予定されているのでTensorflowやWekinatorのような学習ソフトウェア。初期のデータとして使用するために、各アクセントで最初のオーディオを作成します。私がこの道筋を深く掘り下げる前に、私はこのアプローチについてのフィードバックや、より良いアプローチがあるかどうかを知りたいと思っていました。何かを明確にする必要があるかどうかを教えてください。
あなたが使用することができ