0

私は余計なミーティングに立ち会っている人のために、誰かに質問する時を知っておく必要があるアプリの開発に取り組んでいます。OS X(音声ファイルなし)でライブトランスクリプションを取得するにはどうすればよいですか?

私の計画は次のとおりです。私の名前を見て何かにすることを音声テキストプログラム

  • ストリームに会議のオーディオ(通常は私のスピーカーから出てくるものを)

    1. ストリームと/または質問のためのイントネーションの上昇
    2. 誰かが私に質問をしたときにプログラムを "鳴らす"ようにしてください。そして、私はすぐにテキストと答えを読むことができます。

    難しい部分は、ステップ(1)です。私が見つけたスピーチからテキストへのすべてのプログラムは、オーディオファイルを入力として受け入れ、スピーカー/ヘッドフォンに行くどのチャンネルからでもストリーミングすることはできません。私が見つけた支援プログラムは、キーボード入力を引き継ぎます。理想的には、会議中に他のアプリを入力して生産的な作業をすることができるため、そのようなソリューションは機能しません。

    だから、私は(1)またはより良いステップを処理するのいずれかのOS X上で使用することができます何かを探しています私のために、上記の手順のほとんどを行います。

    私は解決策の研究を行っており、ステップ(1)のものは見つかりませんでした。私は他のステップも含めています。これは、私が知らない他の補助的な技術のような、全体的なプログラムのためのより創造的な解決策があるかもしれないからです。

  • 答えて

    1

    たとえば、streaming API from Googleなど、多くのAPIを使用できますが、完全に無料ではありません。

    精度が低い場合は、CMUSphinxなどのオープンソースソフトウェアを使用できます。

    問題はvoipソフトウェアからオーディオストリームを取得する方法でもあります。自分でハックする必要があります。あるいは、スピーカーで再生されたものを再録音する必要がありますが、それは常に良い考えではありません。

    1

    1)私はアプリケーション間オーディオルーティングのためにLoopBackを使用しました。これは基本的に1つのアプリから別のアプリにオーディオをパイプする仮想ミキサーです。これは、オーディオ入力デバイスとして表示され、また、監視することができます - ので、あなただけでなく、別のアプリにストリームを聞くことができます。

    2と3)本当に私の専門分野ではありませんが、おそらく私の研究を開始するためのGoogle API(Nikolay氏の言うとおり)を調べるでしょう。

    関連する問題