2017-01-16 14 views
3

私はtensorflow-wavenetプログラムをテキスト読み上げに使用しようとしています。tensorflow-wavenetの使い方

これらの手順は次のとおりです。

  1. ダウンロードTensorflow
  2. ダウンロードlibrosa
  3. マシンpython train.py --data_dir=corpus
  4. を要件 pip install -r requirements.txt
  5. ダウンロードコーパスをインストールし、 "コーパス"
  6. トレインという名前のディレクトリに置か
  7. 音声を生成するpython generate.py --wav_out_path=generated.wav --samples 16000 model.ckpt-1000

これを実行した後、テキストファイルの音声読み上げをどのように生成できますか? tensorflow-wavenet pageによると

+0

もしtensorflow-wavenetがぎこすり声を出す以外に何もできないのであれば、機械学習と音声生成を組み合わせて現実的な声を作り出す機能的なプログラムはありますか? – Lumo5

+1

もちろん、ディープマインドはすべての魔法を明らかにすることができないので、彼らの論文では、テキストからスピーチの生成に必要なローカルコンディショニングの仕方が欠落しています。また、ローカルのコンディショニングのために使用する方法で整理されたトレーニングデータが必要です。>音声を音声テキストと組み合わせて使用​​する必要があります。レポをフォークして自分でやるか、他の天才がやるまで待ちますそれ。 –

答えて

3

現在のコンテキストが生成されているものスピーチスタックまたは制御することが可能になる余計な情報には地元の調整はありません。訓練のためのコードを持っているように見えるそのうちの一つ

あなたはWavenet紙が2つのTTSベースラインにWavenetを比較し、リポジトリ上の問題を読むことによって(local conditioning is a desired feature!

をプロジェクトの現在の開発に関する詳細な情報を見つけることができ、利用可能なオンライン:http://hts.sp.nitech.ac.jp

1

DeepMindによる最近の論文では、実装しようとはしていないが、少なくとも使用する方法を述べたWaveNetを使用したテキストから音声へのアプローチについて説明しています。テキストからのスペクトログラム、WaveNetで同じように使用する追加の条件付き入力としてのスペクトログラムを使用して、音声を生成します。スペクトログラムを抽出し、テキストを含む別のデータセットを使用してテキストからスペクトログラムへの変換を行うことができる音声専用データの巨大なデータベースでWaveNetの部分を訓練することができます。

https://google.github.io/tacotron/publications/tacotron2/index.htmlには、出力といくつかの出力例があります。

スペクトログラム予測部分の周りには直感的ではないエンジニアリングがたくさんあるようですが(テキスト - 時間変換の性質のため疑いの余地はありません)、少なくともこのペーパーにはいくつかの詳細があります。データセットは独自のものなので、他のデータセットを使用して結果を得ることがどれほど難しいか分かりません。