私はオーディオファイルを持っています(2人の録音された電話の会話)。私は2つのスピーカーの音声を自動的に分離する必要があります。私は音声認識には新しく、パイソンの波動モジュールを見ていましたが、有益な情報は見つけられませんでした。Pythonスピーカーの認識
開始の手助けをしてください。また、私は問題を解決するのに役立つ無料のPythonライブラリを提案してください。
私はオーディオファイルを持っています(2人の録音された電話の会話)。私は2つのスピーカーの音声を自動的に分離する必要があります。私は音声認識には新しく、パイソンの波動モジュールを見ていましたが、有益な情報は見つけられませんでした。Pythonスピーカーの認識
開始の手助けをしてください。また、私は問題を解決するのに役立つ無料のPythonライブラリを提案してください。
numpyで始めると、オーディオレコーディングのさまざまな声を区別するのに適した方法としてspectrpgraphs(基本的にはローリングFFT)を見ます。
ここスペクトログラム機能はMatplotlibにあります:
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram
あなただけのWindowsプラットフォーム上で始めるしている場合、私はPython(x,y)をお勧めします。
CMU Sphinx Pythonライブラリをご覧ください。それはJavaで開発されているので、Pythonのlibsはそれのためのラッパーに過ぎないと思います。このプロジェクトの背景には、多くの研究が進行中です。
公式のwiki:ここでは、Linux用http://cmusphinx.sourceforge.net/wiki/
クイックスタートチュートリアル:http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python
sciKitsトークボックスをチェックしてください:http://projects.scipy.org/scikits/wiki/Talkbox
Unfortunutlyチュートリアルが非常に制限されています:http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html
分離のタスクを話者の音声認識タスクではなく、話者認識タスクである。スピーチの親和性では、この作業はスピーカーのダイアリゼーションとも呼ばれます。スピーカーdiarizationとPythonで利用可能な話者認識のためのいくつかのパッケージがあります:あなたはPythonに制限されていない場合には
は、他の人があります。
Speaker recognition setup in Kaldi。最先端のDNNベースのiベクトルが含まれています。