
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
实验语音学
语音预处理常用pytorch函数
单通道语音增强技术单通道语音增强算法主要可以分为两大类:基于数字信号处理的传统增强算法和基于数据驱动的学习类增强算法。一、传统语音增强基本是基于时域分析或频域分析。频域主要是基于增益函数设计,但不同算法在计算增壹函数时采用的策略不同,主要分为三类:谱减法,基于统计模型,子空间算法。1.谱减法(基于信号处理)1970年发展起来,比较老。该类算法需要己知较为精确的噪声谱,但这并不容易被估计获取,尤其是
语音转换概述一、概念指将一个人(源说话人)的声音个性化特征(如频谱、韵律等)通过“修改变换”,使之听起来像另外一个人(目标说话人)的声音,同时保持说话内容信息不变。广义上把改变语音中说话人个性特征的语音处理技术统称为语音转换。广义的语音转换可分为非特定人语音转换和特定人语音转换。二、基本原理主要个性特征参数:声道谱,共振峰频率,基音频率等。训练:特征提取,映射,模型训练转换:待转换源语音特征提取,
常见语音转换方法1.矢量量化法(Vector Quantization,VQ)Abe等人最早提出了矢量量化算法,将语音特征信号以帧作为划分,然后求出对应帧之间的关系,这个关系可以由一个矩阵进行表示。其基本原理如图所示:在训练阶段首先将语音分成若干个独立的帧(基于矢量量化对语音分帧量化),提取每一帧的参数矢量;然后基于DTW将对应的语音帧对齐。采用柱状统计图表示两端语音之间映射关系,建立映射码数H,
如何描述和表示情感语音?情感可以用分类来描述或维度表示。对于表示情绪的标签,情绪类别方法是表示情绪最直接的方法。最著名的分类方法之一是Ekman的六种基本情绪理论,将情绪分为六个离散的类别,即愤怒、厌恶、恐惧、快乐、悲伤和惊讶,在许多情绪语音合成研究中被采用。然而,这种离散的表示并不寻求模拟人类情感中的微妙差异来控制渲染语音。另一种方法是模拟情绪表达的物理特性。一个例子是罗素的环状模型,由觉醒、效

存在问题:目前的语音增强技术都是在频谱域上操作和/或利用一些更高层次的特征。它们中的大多数只能处理有限数量的噪声条件,并依赖于一阶统计量。为了规避这些问题,人们越来越多地使用深度网络,由于它们具有从大量数据中学习复杂函数的能力。本研究中,我们提出使用生成对抗网络进行语音增强。本文方法:与目前的技术相比,我们是在波形级别操作,端到端训练模型,并将28个说话人和40种不同的噪声条件纳入同一模型,以便在

基于GMM的男女声语音转换男女声基本区别男女声主要区别在于男女声基音频率(pitch frequency)的高低。一般女声的音调比男声的音调高,这种不同主要是反应在基音频率(pitch frequency)上。一般女声的基音频率高于男声,常见的男女声基音频率大致分布范围如下图所示。提取基音频率比较常用的方法就是倒谱(cepstrum)。声音信号具有短时平稳性,我们认为在10~50ms的数据长度上声
python中 // 和 / 和 % 用法及区别每次都会搞混淆,这次整理一下加深记忆。在python的语法中, // 和 / 和 % 均表示的做除法运算,但又有一些区别。单杠除:/只是一种常规除法,平常除法是什么结果就是什么结果,如:5 / 2 = 2.5# 浮点数除法,返回浮点结果注:#基于 python3# 1. 即使是两个整数恰好整除,结果也是浮点数。# 2. 两个整数没能整除,返回浮点数1
在语音增强、语音合成、语音转换、声音转换、语音克隆、语音修复等等领域,常常要对输出的语音进行评价。对语音的质量评价一般关注两个方面,即主观评价和客观评价。主观评价就是人凭借听觉感受对语音进行打分,客观评价比较广泛,有的是通过计算输出语音与目标语音之间的声学参数之间的差异来衡量输出语音的质量;有的是依靠仪器测试响度、频率响应、灵敏度等指标;有的依靠模型和算法,模拟人工打分。注:这些评价方法并不都是相
