IMBの音声テキストサービスがそれを行います。あなたが非常に単純な、彼らの残りのサービスを使用する場合は、URLのパラメータで特定された別の話し手を追加することを追加します。ここでのドキュメント(https://console.bluemix.net/docs/services/speech-to-text/output.html#speaker_labels)
それは一種の、このように動作します:彼らはまた、持っている
{
"results": [
{
"alternatives": [
{
"timestamps": [
[
"hello",
0.68,
1.19
],
[
"yeah",
1.47,
1.93
],
[
"yeah",
1.96,
2.12
],
[
"how's",
2.12,
2.59
],
[
"Billy",
2.59,
3.17
],
. . .
]
"confidence": 0.821,
"transcript": "hello yeah yeah how's Billy "
}
],
"final": true
}
],
"result_index": 0,
"speaker_labels": [
{
"from": 0.68,
"to": 1.19,
"speaker": 2,
"confidence": 0.418,
"final": false
},
{
"from": 1.47,
"to": 1.93,
"speaker": 1,
"confidence": 0.521,
"final": false
},
{
"from": 1.96,
"to": 2.12,
"speaker": 2,
"confidence": 0.407,
"final": false
},
{
"from": 2.12,
"to": 2.59,
"speaker": 2,
"confidence": 0.407,
"final": false
},
{
"from": 2.59,
"to": 3.17,
"speaker": 2,
"confidence": 0.407,
"final": false
},
. . .
]
}
:
curl -X POST -u {username}:{password}
--header "Content-Type: audio/flac"
--data-binary @{path}audio-multi.flac
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?model=en-US_NarrowbandModel&speaker_labels=true"
それがこのような結果とスピーカーのラベルでJSONを返します。ウェブ・ソケット・オプションと、これにアクセスする異なるプラットフォーム用のSDKを提供します。
幸運
おかげで、私はそれらのリードで何かを把握することができるかもしれません。私はここで "あなたは否定的なことを証明することはできません"と誤解させて、誰かが "実際の"解決策を思い付くかどうかを2日待つつもりです。 2日後に「実際の」ソリューションが掲載されていない場合は、これを承認済みの回答としてマークします。 –
私は嘘をついた。私は5日遅れました。病理学的な楽観主義...プログラマーの悩み: –
@Paulありがとう:)私は他の何かにつまずく場合、私は戻って私の答えを更新します。 – brandall