0

おはよう。私は現地の方言で機械翻訳(スピーチ - (テキスト - テキスト) - スピーチ)を行っています。私はすでにスピーチとテキストコーパスを持っています。しかし、スピーチ認識に利用できるモジュールは私たちの方言をカバーしていないため、スピーチを入力として記録してテキストファイルに転記する際に問題に直面しています。ほとんどの場合、英語やその他の主要言語をサポートしています。Pythonを使用した音声対テキスト方式

私はそれを修正する方法を知っている人はいますか?私はあなたの貴重な提案を受け入れることを光栄に思っており、私の研究に多くの助けになります。ありがとう!

+0

ようこそ。あなたは文全体を転記しようとしていますか?または選択した単語?どのくらいの時間あなたはそれに投資することができますか?信号処理と機械学習の経験はありますか?あなたは同様の問題に取り組んで、あなたのデータセットでその性能をチェックする最先端のニューラルネットワーク(または同様のもの)から始めることができます。それは広大な科目です、あなたはそれについて博士号をすることができます。 –

+0

@LukaszTracewskiお返事ありがとうございます。真実は、私はCSの修士課程の学生として私の最初のセムにいて、私は自分の論文の早い段階で働き始めています。私はまだこれに割当てるために1年間持っています。私はこの問題についての参考文献を検索しましたが、主要言語のみがサポートされています。私自身の方言でテキストをスピーチに読むことができる場所を参照したり、リンクを張ったりできますか?これは私の大きな助けになるでしょう。 – EvanTheGreat

+0

ようこそStackOverflowへ。ヘルプドキュメントの投稿ガイドラインを読み、それに従ってください。 [on topic](http://stackoverflow.com/help/on-topic)および[How to Ask](http://stackoverflow.com/help/how-to-ask)をここで適用してください。 – Prune

答えて

0

珍しい方言のためのテキスト読み上げは、オーディオモデルが存在しないため、最初から作成する必要があるため、大きな課題です。 http://voxforge.orgからのチュートリアルの1つで始めるのがよいでしょう。このサイトでは、多数のオーディオデコーダとモデルジェネレータを含むチュートリアルだけでなく、英語以外の様々な言語の学生が自らの方言の問題に関連する解決策を見つけた有益なフォーラムを見つけることができます。

一般的な計画は次のとおりです。与えられた例に従って簡単な英語モデルを構築し、用語と概念とプロセスに慣れる。あなたの必然的な英語の成功を考えれば、あなた自身の方言用のモデルを構築することによって、ネイティブコーパスの所有権を有効にすることができます。これは合理的な目標であり、以前何度も行われてきました。ただし、幅広い語彙で優れた認知を得るには、非常に包括的なコーパスデータセットが必要であることに注意してください。

+0

洞察力@Colinありがとうございました。私はサイトのチュートリアルを通して読み始めるでしょう。希望、これは私にとって良いスタートになるでしょう。 – EvanTheGreat

関連する問題