简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
会议:2020 interspeech作者:zhangjingxuan单位:科大讯飞&中科大文章目录abstractintroduction2. background3. proposed method3.1 ASR enabstract使用ASR和TTS级联的方法完成语音转换,ASR用科大讯飞的引擎,TTS用transformer,另外加一个prosody encoder产生韵律标记(建
BN主要缺点是对batchsize的大小比较敏感,由于每次计算均值和方差是在一个batch上,所以如果batchsize太小,则计算的均值、方差不足以代表整个数据分布。因为在图像风格化中,生成结果主要依赖于某个图像实例,所以对整个batch归一化不适合图像风格化中,因而对HW做归一化。可以加速模型收敛,并且保持每个图像实例之间的独立。LayerNorm:channel方向做归一化,算CxHxW的均
语音学是语言学研究人类语言产生的声音的一部分。它包括他们的生产(通过人的声音器官),他们的声学特性和感知。语音有三个基本分支,都与自动语音识别有关。发音语音学的重点是通过声道和各种发音器官来发声。声学语音学关注的是语音从说话者传递到听者的过程听觉语音学主要研究听者对语音的接收和感知。一、因素语音的分解单位叫做音素。...
时间:2018.9没看到发布的地址作者:Zhanyu Ma, Hong Yuabstract用于中文音素分类的DNN的bottleneck特征被用于LSTM的训练。1. introductionSLD任务用在语音识别的前端,首先判别一句话的语种,然后唤醒对应的decode去翻译成文本。世界上有上千种语言,每种语言有不同的区分特征,想要找到一种通用的,快速响应的有效SLD system...
传统语音识别(GMM+HMM)https://www.jianshu.com/p/16fc3712fdf6国科大语音识别课件http://staff.ustc.edu.cn/~zhling/Course_SSP/slides/Chapter_12.pdf
作者:LiNaiHan单位:电子科学与技术 & MSRA & STCA会议:AAAI时间:2019.4abstracttacotron的问题:(1)train和infer的效率低;(2)用的是RNN,很难建模长时依赖。本文用NMT的multi-head self-atttention替代tacotron2中的RNN和attention。(1)encoder和decode...
作者: Yizhou , HaizhouLi单位:新加坡国立& 南洋理工abstract 用两个单独的语音识别系统训练双语的PPGs,conversion model学习双语PPGs的关系以及对应的声学特征,为了减少不同语种下说话者的干扰,从source和target 中挑选多个说话者作为对象训练average model(训练asr or conversion??)。I-ve...
abstract非平行训练数据进行voice conversion首先用一个SI-ASR(speaker-independent 语音识别系统)提取PPGs(Phonetic PosteriorGrams),这个PPGs可以对应于说话者的发音,并且对应于独立说话者的 说话内容。然后用DBLSTM(deep bi-LSTM)建模PPGs和target speech声学特征之间的关系ps.用...
声学模型描述一种语言的基本单位被称为音素Phoneme,例如BRYAN这个词就可以看做是由B, R, AY, AX, N五个音素构成的。英语中貌似有50多个音素,可以用50几个HMM state来表示这些音素,这种表示方法就是context independent模型中的单音素monophone模式。然而语音没有图像识别那么简单,因为我们再说话的时候很多发音都是连在一起的,很难区分,所以一般用左.