2

私は、ユーザーがフレーズを言い、ユーザーのアクセント(ボストン、ニューヨーク、カナダなど)を検出できるモバイル/ Webアプリケーションの構築の可能性についていくつかの調査を行ってきました。ユーザーが言うことができる約5〜10の定義済みフレーズがあります。私は、Speech to Text API(Nuance、Bing、Googleなど)のいくつかに慣れていますが、この追加の機能を提供するものはありません。私が見つけた最も近い例は今、GoogleやMicrosoftの話者認識のAPIです:アクセント検出API?

http://www.androidauthority.com/google-now-accents-515684/

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

私はマシンを使用してと思っています5-10事前に定義されたフレーズがあるように予定されているのでTensorflowやWekinatorのような学習ソフトウェア。初期のデータとして使用するために、各アクセントで最初のオーディオを作成します。私がこの道筋を深く掘り下げる前に、私はこのアプローチについてのフィードバックや、より良いアプローチがあるかどうかを知りたいと思っていました。何かを明確にする必要があるかどうかを教えてください。

あなたが使用することができ

答えて

3

(これは単なるアイデアで、あなたは多くのことを試してみる必要があるでしょう)あなたが持っている可能アクセント限り多くの出力を持つニューラルネットワークソフトマックス出力層と交差エントロピーコスト関数と

4

ありそのようなまれなタスクのための公開APIはありません。

言語検出としてのアクセント検出は、通常、iベクトルで実装されます。チュートリアルはhereです。実装はavailable in Kaldiです。

文章を修正してもシステムをトレーニングするには、相当な量のデータが必要です。あなたが持っている特定の文章に集中することなく、アクセント付きの音声を収集する方が簡単かもしれません。

エンドツーエンドのテンソルフローの実装も可能ですが、スピーカーとインストゥルメントをアクセントとは別のものから分離する必要があります(基本的には、iベクトルのように分解を行う必要があります)。あなたはthisthis oneのような類似の作品の説明を見つけることができます。

関連する問題