audio语音相关的基础知识-VAD,ASR,AEC,AGC,BF等

audio语音相关的基础知识-VAD,ASR,AEC,AGC,BF等语音词识别过程一. VAD1. 什么是VADVAD，也就是语音端点检测技术，是Voice Activity Detection的缩写.这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点，因为语音中含有很长的静音，也就是把静音和实际语音分离开来，因为是语音数据的原始处理，所以VAD是语音信号处理过程的关键技术之一。

深圳十八子

7550人浏览 · 2020-08-13 19:40:30

深圳十八子 · 2020-08-13 19:40:30 发布

audio语音相关的基础知识-VAD,ASR,AEC,AGC,BF等

一. VAD

1. 什么是VAD

VAD，也就是语音端点检测技术，是Voice Activity Detection的缩写.

这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点，因为语音中含有很长的静音，也就是把静音和实际语音分离开来，因为是语音数据的原始处理，所以VAD是语音信号处理过程的关键技术之一。

语音识别系统在识别或者声学模型训练阶段所遇到的第一个技术就是端点检测，把静音和噪声作为干扰信号从原始数据中去除，并且端点检测对于语音识别系统的性能至关重要。

静音抑制，又称语音活动侦测。静音抑制的目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。

2. VAD的作用

现在流行的语音识别系统大部分，或者是相当一部分都是基于统计和训练的原理所构建的系统，因此对数据来源和训练环境都是很敏感的。在识别的过程中，经常存在实际语音因背景噪声的干扰而与训练失配的情况，实际这也是造成语音识别系统鲁棒性差的一个根本原因（另一个主要的是无法处理非预期的输入），从而导致识别错误，性能下降。哪怕是两段内容上是完全一致的语音信号，可能由于语速不一样，所以语音信号的时间也不相同，音素之间的时间间隙也就不一样，对于时变而非平稳的语音信号来说，其特征就完全不相同了。有音素之间的间隙，也有静音和语音本身的间隙，为了对数据从时间上进行相对的校准，语音端点检测技术就应运而生了，因此端点检测技术可以决定这种校准的相对精度，使得同一内容的特征更趋于相同，当然，一般情况下是不可能完全相同的。大量研究表明，如果环境是安静的环境，没有太多背景噪声，此时语音识别系统的主要错误来源于端点检测技术不精确。

但在实际应用中，不可能没有背景噪声，另外由于麦克风的录制和信号增益也会带来噪声，所以语音识别系统的错误是由多方面影响的，至少包括：端点检测、特征提取、语音模型、声学模型、解码器等多个方面。

二. AEC,LEC,ASR

1. 什么是EC

回声消除(Echo Cancellation)

2. AEC

声学回声消除（Acoustic Echo Cancellation，AEC）

3. LEC

线路回声消除（Line Echo Cancellation, LEC）

#从通讯回音产生的原因看，可以分为声学回音（Acoustic Echo）和线路回音（Line Echo），相应的回声消除技术就叫声学回声消除（Acoustic Echo Cancellation，AEC）和线路回声消除（Line Echo Cancellation, LEC）。声学回音是由于在免提或者会议应用中，扬声器的声音多次反馈到麦克风引起的（比较好理解）；线路回音是由于物理电子线路的二四线匹配耦合引起的（比较难理解）。

4. ASR

自动语音识别技术（Automatic Speech Recognition）是一种将人的语音转换为文本的技术。

三. AGC,ANS

1. AGC是自动增益补偿功能（Automatic Gain Control），AGC可以自动调麦克风的收音量，使与会者收到一定的音量水平，不会因发言者与麦克风的距离改变时，声音有忽大忽小声的缺点。

2. ANS是背景噪音抑制功能（Automatic Noise Suppression），ANS可探测出背景固定频率的杂音并消除背景噪音，例如：风扇、空调声自动滤除。呈现出与会者清晰的声音。

四. BSS, BF, DOA/SD, NS,DER,NLP, GF

1. BSS（Blind source separation）：盲源分离

盲源分离（BSS: Blind Source Separation），又称为盲信号分离，是指在信号的理论模型和源信号无法精确获知的情况下，如何从混迭信号（观测信号）中分离出各源信号的过程。盲源分离和盲辨识是盲信号处理的两大类型。盲源分离的目的是求得源信号的最佳估计，盲辨识的目的是求得传输通道的混合矩阵。盲源信号分离是一种功能强大的信号处理方法，在生物医学信号处理，阵列信号处理，语音信号识别，图像处理及移动通信等领域得到了广泛的应用。

2. BF（Beamforming）：波束形成

波束成形是天线技术与数字信号处理技术的结合，目的用于定向信号传输或接收。波束成形，并非新名词，其实它是一项经典的传统天线技术。早在上世纪60年代就有采用天线分集接收的阵列信号处理技术，在电子对抗、相控阵雷达、声纳等通信设备中得到了高度重视。基于数字波束形成（DBF）的自适应阵列干扰置零技术，能够提高雷达系统的抗干扰能力，是新一代军用雷达必用的关键技术。定位通信系统通过传声器阵列获取声场信息，使用波束成形和功率谱估计原理，对信号进行处理，确定信号来波方向，从而可对信源进行精确定向。只不过，由于早年半导体技术还处在微米级，所以它没有在民用通信中发挥到理想的状态。

3. DOA（Direction of arrival）\SD（sound localization）：声源定位

现在常见的麦克风声源定位算法多见于TDOA算法，其基本原理是根据信号到达两个不同位置的麦克风的时间差，估计出信号到达两个不同位置麦克风的距离差，可以列出一个双曲线方程，同时使用另外两个不同的麦克风同时检测信号可以得到另外一个双曲线方程，两个双曲线方程的交点就是声源的位置坐标。使用这种方法进行声源定位时，至少要使用三个麦克风，使用两次TDOA算法进行运算，才能完成一次定位操作。为了实现更精确的声源定位，也常采用阵列技术，将多个麦克风组成线阵，或方阵采集信号进行声源定位。但这种定位技术的算法更为复杂。

4. NS（Noise suppression）：降噪

这里面是讲音频的降噪算法

滤波等等……

5. DER(Dereverberation)：去混响

通常在声音信号采集或录制的情况下, 传声器除了接收到所需要的声源发射声波直接到达的部分外,还会接收声源发出的、经过其它途径传递而到达的声波, 以及所在环境其它声源产生的不需要的声波(即背景噪声)。在声学上, 延迟时间达到约 50 ms 以上的反射波称为回声, 其余的反射波产生的效应称为混响。混响现象将对期望声信号的接收效果产生影响。一些建筑, 如音乐厅和教堂, 需要适度的混响作用而使音乐更加动听。但在许多场合, 混响往往会带来干扰, 导致声学接收系统性能变差。例如, 混响会导致语音识别系统性能显著下降; 在远程会议、免提电话、助听器和移动通信中, 混响作用主要带来负面影响。当混响严重时,这些系统甚至无法正常发挥功能, 因此, 如何减少混响对声音接收系统的影响, 即去混响(dereverberation),是一个非常重要的课题。

6. NLP（非线性滤波）