2011-09-05 30 views
16

私はオーディオファイルを持っています(2人の録音された電話の会話)。私は2つのスピーカーの音声を自動的に分離する必要があります。私は音声認識には新しく、パイソンの波動モジュールを見ていましたが、有益な情報は見つけられませんでした。Pythonスピーカーの認識

開始の手助けをしてください。また、私は問題を解決するのに役立つ無料のPythonライブラリを提案してください。

答えて

13

分離のタスクを話者の音声認識タスクではなく、話者認識タスクである。スピーチの親和性では、この作業はスピーカーのダイアリゼーションとも呼ばれます。スピーカーdiarizationとPythonで利用可能な話者認識のためのいくつかのパッケージがあります:あなたはPythonに制限されていない場合には

SIDEKIT from LIUM

Bob toolkit from Idiap

Speaker diarization from ISCI

は、他の人があります。

LIUM speaker diarization

Speaker recognition setup in Kaldi。最先端のDNNベースのiベクトルが含まれています。