
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
数据集可直接在 leaderboard 中使用,方便SpeechIO 的读者以及厂商复现、核对评测结果,欢迎合理的修改建议和 Pull Request。SPEECHIO_ASR_ZH00000 :Leaderboard 调试集(经济、货币、金融)分发采用了商用的阿里云对象存储服务,大量的数据分发会对 SpeechIO 产生高额流量费用。格式1 metadata.tsv:包括音频路径,音频长度,文本

平均说话人向量是为了保证来自特定说话人的每条语音由相同的伪说话人产生,而来自不同说话人的语音由不同的伪说话人产生。我们提出的方法使用说话人编码器生成的两种说话人向量加权得到,一种是由保留的伪说话人ID生成的伪说话人向量,可以确保匿名结果不对应于任何真实说话人;在本届VPC竞赛中,我们的系统分别达到了30.15%和5.82%的最佳平均EER和WER,在竞赛设定的四个条件上均取得了最好成绩,这表明我们

本次分享内蒙古大学S2LAB与字节跳动、港中文(深圳)合作,关于情感对话语音合成的工作《Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling 》。该工作利用异构图实现情感上下文建模机制,生成符合对话语境的情感语音,实现了对话语音合成的情感渲染。该工作

2022年第十七届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication, NCMMSC 2022)将于2022年12月15~18日在安徽合肥举行。

由CCF语音对话与听觉专委会 、中国人工智能产业发展联盟(AIIA)评估组、火山语音、语音之家、希尔贝壳共同主办的【语音之家】AI产业沙龙—火山语音在AI视频译制方向的技术探索与实践,将于2022年11月1日19:00-20:45线上直播。

在单一语种的中文数据集以及多语种的中英混合的数据集上,大量实验表明我们提出的方法可以实现语音中风格、情感、音色、语种的解耦与重组,为目标说话人合成自然、高表现力的双语多风格多情感语音。如表1所示,提出的方法取得了最优的自然度,最高的情感、音色、风格相似度,反映出其有效地解耦了情感、音色、风格,并实现了重组。尽管之前的方案在中文上为目标说话人合成了极具表现力的语音,但它在英文上的表现不佳,发音错误较

零样本语音转换在转换时只需目标说话人的一段语音,更适合实际应用需求,具有广泛应用前景。 现有工作只考虑内容和音色表征的解耦,没有考虑与语音旋律相关的 韵律 和 音高 表征,导致与音高和韵律相关的信息泄露到音色中。

论文利用低质量的众包口音数据集KeSpeech,将低质数据中的各种普通话地方口音迁移到标准普通话口音的目标说话人DB1 [2] 上,实现保留DB1音色带有各种口音的语音合成系统。

AI 语音转换真的越复杂越好吗?本文就提出了一个方法简单但同样强大的语言转换模型,与基线方法相比自然度和清晰度毫不逊色,相似度更是大大提升。

该论文主要介绍了MOCKINGJAY这一个新的语音表征学习方法,它通过对过去和未来语境的共同调节来预测当前帧。
