Google音声認識APIが最初に返されるのは2〜3秒間の音声テキストです。

Google Cloud Consoleでプロジェクトを作成し、このプロジェクトでGoogle Speech APIを有効にして認証情報を作成しました。はまた、Googleが推奨transcribe.pyを使用Google音声認識APIが最初に返されるのは2〜3秒間の音声テキストです。

私は、Googleによって生成されたAPIキーでそれを使用することができます成功した音声ファイル（30秒を変換するためのコンソール可能性）をテキストに変換しますが、完全には入力しません。私のアカウントは今では無料試用版なので、私のアカウントタイプ（無料試用版）のためかどうかは疑問です。

Googleからの回答はのようです{"結果"：[{"代替"：[{"信頼"：0.89569235、 "トランスクリプト"： "私は森にピクニックをしています。 0：0：オーディオ：pcm_s16le（[1] [0] [0] [0]）オーディオファイルはwavファイルでフォーマットされています（ffprobeで印刷されます）ストリーム＃0：0：/0x0001に）、16000 Hzで、1つのチャンネル、S16、256キロバイト/ sの

オーディオファイルをGoogleドライブにアップロードされた、リンクはこちら https://drive.google.com/file/d/0B3koIsnLksOLQXhvQ1ljS0dDXzg/view?usp=sharing

であるA nybodyは上記のプロセス/ステップに何が間違っているか知っていますか？これはバグGoogleの音声認識APIですか？クラウドスピーチAPIサービスでGoogleのAPI Explorerを使用して

出典

2016-10-21 Leo Hwang

、あなたのオーディオファイルの別々のサンプルを分析することにより、以下の関連音声認識結果を単離することができた：

カット1：0 - 00'08 "015、結果9："私は森にピクニックをして帰ってきたので、私と一緒に来てください "
カット2：00'08" 732 - 00'11 "184、結果2： "それは何であるか聞いてください"
カット3：00'13 "500 - 終わりまで、結果2："見ているもの "

そこ正しく動作からの転写を防ぐことができので、現在ベータ版であり、音声APIに関する既知の問題が存在する（関係なく、もし、実際のところ

“config”: { 
    “encoding”: “LINEAR16”, 
    “sampleRate”: 16000, 
    “maxAlternatives”: “30”, 
}

：の

これらの結果は、次の設定を使用して得られましたアカウントは有料または無料トライアルベースです）。次best practicesで説明したように、あなたのケースで考慮すべき二つの問題があるでしょう：

バックグラウンドミュージックは、転写精度が低下するのに十分なバックグラウンドノイズを作成することができ、音声録音全体で再生されています。（スピーチAPIは、ユーザーのテキストをアプリケーションのマイクロフォンに転送するように設計されていることに注意してください）
さらに、1人以上の人からキャプチャされたオーディオを分割することをお勧めします。あなたのケースでは、カエルの音は異なる人間の声として検出される可能性があり、また転写の正確さにも影響します。

これらの2つの既知の問題を考慮すると、雑音を除去し、録音の主役に由来する一様な発話だけを処理することが重要です。また、録音を分割して、1つのキャラクターの声を含む録音の各パートを個別に録音することもできます。

出典

2016-11-14 22:45:20 Alex

Google音声認識APIが最初に返されるのは2〜3秒間の音声テキストです。

答えて

関連する問題