logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Tacotron 2运行笔记(纯小白向)

昨天在***数学家是我理想大佬***的引领下终于跑通了NVidia tacotron2的经典模型代码,这里做一下记录,也帮之后入坑TTS的各位同学踩一下坑,话不多说,咱们开始。0)不管干嘛,第一步整好环境torch过往版本下载地址:https://pytorch.org/get-started/previous-versions/#linux-and-windows-16我的选项:CUDA 9.0

读《JOINT AND ADVERSARIAL TRAINING WITH ASR FOR EXPRESSIVE SPEECH SYNTHESIS》

Abstract风格建模是表达性语音合成中的一个重要问题。在现有的无监督方法中,样式编码器从参考音频中提取潜在的表示作为样式信息。然而,从风格编码器中提取的风格信息会纠缠一些内容信息,这将导致与实际输入内容冲突,从而影响合成语音,也就是风格泄露问题。在本研究中,我们提出通过将文本到语音(TTS)模型和自动语音识别(ASR)模型与共享层网络相结合进行联合训练,并使用ASR对抗性训练来消除风格信息中的

文章图片
#语音识别#人工智能#深度学习
到底了