私は、tts & stt(テキストから音声へのテキスト&の音声からテキストへ)についての私の新しいプロジェクトについて考え始めたばかりで、解決しなければならないいくつかのトリッキーな問題を乗り越えました。音声認識の音声を録音する
- オーディオはどのように録音しますか? 私はこの時点で言語を気にしません、私はちょうど私が一緒に参照するオーディオのいくつかのチャンクを記録することができるだろう興味があります。 「Jarvis Turn On Light Two」と言うと、「whatever.wav」として保存されるはずですが、もしあれば、2秒の時間間隔ですべての単語を言いました。私のレコーディングソフトウェアは、最初の単語 "Jarvis Turn On"をグループ化してTensorFlowで処理した後、次のオーディオチャンクを "Light Two"という単語で処理して、全く意味を持たないと仮定することができます。意味のあるオーディオをどのように録音することができますか?たぶん閾値を持つので、一定量のノイズが与えられたときだけ記録するのでしょうか?
- どの言語を使用しますか? システム全体がLinux上でバックグラウンドプロセスとして実行される必要があります。 TensorFlowには、さまざまな言語がサポートされています。一度私が気にしているのは、C++やJavaです。ここでの主な質問は、ソフトウェアを連続モードで実行する方法です。だから、私のサーバがオンになったら、録音ソフトウェアも起動し、「whatever.wav」ファイルをリスニングして生成する必要があります。
- スレッディング、オプション、または必要ですか? 録画ソフトウェアは、バックグラウンドプロセスとしてLinux上で実行されています。それはちょうど私の話し言葉をひとつの "whatever.wav"ファイルに聴いてグループ化するべきです。このファイルを更新した後、TensorFlowはファイルをスキャンし、私が訓練したものを出力します。私は無限状態マシンにはあまり馴染んでいないので、基本的に私の質問ですか?
私はこのトピックにとても慣れています。
Lgのマイケル