Pythonスピーカーの認識

私はオーディオファイルを持っています（2人の録音された電話の会話）。私は2つのスピーカーの音声を自動的に分離する必要があります。私は音声認識には新しく、パイソンの波動モジュールを見ていましたが、有益な情報は見つけられませんでした。Pythonスピーカーの認識

開始の手助けをしてください。また、私は問題を解決するのに役立つ無料のPythonライブラリを提案してください。

2011-09-05 PJC

numpyで始めると、オーディオレコーディングのさまざまな声を区別するのに適した方法としてspectrpgraphs（基本的にはローリングFFT）を見ます。

ここスペクトログラム機能はMatplotlibにあります：

あなただけのWindowsプラットフォーム上で始めるしている場合、私はPython(x,y)をお勧めします。

2011-09-05 14:15:17

CMU Sphinx Pythonライブラリをご覧ください。それはJavaで開発されているので、Pythonのlibsはそれのためのラッパーに過ぎないと思います。このプロジェクトの背景には、多くの研究が進行中です。

公式のwiki：ここでは、Linux用http://cmusphinx.sourceforge.net/wiki/

2011-09-05 16:08:58 bcoughlan

sciKitsトークボックスをチェックしてください：http://projects.scipy.org/scikits/wiki/Talkbox

2013-06-14 16:20:36 billwild

分離のタスクを話者の音声認識タスクではなく、話者認識タスクである。スピーチの親和性では、この作業はスピーカーのダイアリゼーションとも呼ばれます。スピーカーdiarizationとPythonで利用可能な話者認識のためのいくつかのパッケージがあります：あなたはPythonに制限されていない場合には

は、他の人があります。

Speaker recognition setup in Kaldi。最先端のDNNベースのiベクトルが含まれています。

2013-06-14 18:24:35

答えて