目录

第二章 语音信号基础

2.1 声波的特性

2.2 声音的接收装置

2.3 声音的采样

2.4声音的量化

2.5 语音的编码

2.6WAV文件格式

2.7WAV文件分析 


第二章 语音信号基础

声波通过空气传播,被麦克风接收,再被转换成模拟的语音信号,这些信号经过采样,变成离散的时间信号,再进一步经过量化,被保存为数字信号,即波形文件。过程如下:

本章根据以上过程,分别对声波的特性、声音的采集装置(即麦克风)、声音的采样和量化加以介绍,最后介绍语音文件的格式和分析。

2.1 声波的特性

声波在空气中是一种纵波,它的振动方向和传播方向是一致的。声音在空气中的振动形成压力波动,产生压强,在经过传感器接收转换,变成时变的电压信号。

声波的特性主要包括频率声强

频率是指在单位时间内声波的周期数。

而直接测量声强较为困难,故常用声压来衡量声音的强弱。

声压:某一瞬间介质中的压强相对于无声波时压强的改变量称为声压,记为p(t),单位是Pa。

由于人耳感知的声压动态范围太大,加之人耳对声音大小的感觉近似地与声压、声强呈对数关系,所以常用对数值来度量声音。一般把很小的声压 p0=2x10^{-5} Pa作为参考声压,把所要测量的声压p与参考声压p0的比值取常用对数后,乘以20得到的数值称为声压级(Sound Pressure Level,SPL),其单位为分贝(dB)。

SPL= 20 \log ({\frac{p}{p0}}) dB

注:衡量声音的信噪比(Signal to Noise Ratio,SNR)的单位也用分贝,其数值越高,表示声音越干净,噪音比例越小。

2.2 声音的接收装置

麦克风主要包括以下的性能指标:

  1. 灵敏度                                                                                                                                        在单位声压激励下输出电压 与输入声压的比值,单位为 mV/Pa。实际衡量采用相对值,以分贝表示,并规定 1 V/Pa为 0 dB。因话筒输出一般为毫伏级,所以,其灵敏度的分贝值始终为负值。
  2. 频率响应                                                                                                                                        表示麦克风拾音的频率范围,以及在此范围内对声音各频率的灵敏度。一般来说,频率范围越宽、频响曲线俞平直越好。
  3. 指向性                                                                                                                                        麦克风对于不同方向的声音灵敏度,称为麦克风的指向性。指向性用麦克风正面0度方向和背面180度方向上的灵敏度的差值来表示,差值大于15 dB 者称为强方向性麦克风。
  4. 输出阻抗                                                                                                                                    目前常见的麦克风有高阻抗和低阻抗之分。

2.3 声音的采样

声音的采样过程是把模拟信号转换成离散信号。采样的标准是能够重现声音,与原始语音尽量保持一致。采样率表示每秒采样点数,单位是赫兹(HZ)。

声音的采样需满足采样定理(奈奎斯特定理):当采样率大于信号最高频率的两倍时,采样数字信号能够完整保留原始信号中的信息。

采样率越高,采集的间隔就越短,对应的音频损失也就越小。

2.4声音的量化

声音被采样后,摸你的电压信号变成离散的采样值。

声音的量化过程是指将每个采样值在幅度上再进行离散化处理,变成整形数值。

量化位数(编码位数),代表每次取样的信息量,量化会引入失真,并且量化失真是一种不可逆失真。量化位数可以是4位、8位、16位、32位,量化位数越多,失真越少,但占用存储空间越多,一般采用16位量化。

量化方法包括均匀量化非均匀量化。

将声音的采样率和量化位数相乘得到比特率(bps: bits per second),其代表了每个音频样本每秒量化的比特位数。比如一段音频的采样率是16 kHz,量化位数是 16 位,那么该音频的比特率是

16 x 16 = 256 kb/s 。

2.5 语音的编码

在语音的存储过程中也需要编码,常用的音频编码格式包括PCM,MP3,A-law等。

  1. PCM编码                                                                                                                                    PCM(Pulse Code Modulation,脉冲编码调制)是对模拟信号进行采样、量化、编码的过程。它只保存编码后的数据,并不保存任何格式信息。PCM编码的最大优点是音质好,最大缺点是占用存储空间多。                                                                                                            可保存为PCM raw data(.raw文件,无头部)或Microsoft PCM格式(.wav 文件)。            还有一种编码是自适应差分PCM(ADPCM)。
  2. MP3编码                                                                                                                                    MP3编码对音频信号采用的是有损压缩方式,压缩率高达10:1--12:1 。编码模拟人耳听觉机制,采取“感知编码技术”,使压缩后的文件回放时能够达到比较接近原始音频数据的声音效果。
  3. A律编码                                                                                                                                     A律编码按下式确定输入信号值与量化输出值的关系:                                                                                                                                                       F_{A}(x)\left\{\begin{matrix} sgn(x)\frac{A|x|}{1+ln(A)} &0\leqslant |x|\leqslant 1/A & \\ sgn(x)\frac{1+ln(A|x|)}{1+ln(A)} &1/A< |x|\leq 1 & \end{matrix}\right.                                                                                 其中,x 为输入信号值,规整为 -1<= x <= 1 ,sgn(x) 为 x 的符号。A为确定压缩量的参数,反应最大量化间隔和最小量化间隔之比。                                                                                 u律按下式确定输入信号值与量化输出值的关系:                                                                   F_{u}(x)=sgn(x)\frac{ln(1+u|x|)}{ln(1+u)}                                                                                                   其中,u为确定压缩量的参数,反应最大量化间隔和最小量化间隔之比,取值范围为100<=u<=500 。

基于PCM编码的WAV格式常作为不同编码互相转化时的一种中介格式,以便于后续处理,如下所示:

 要实现更多音频格式的转换,可使用FFmpeg工具。FFmpeg是一个强大的专门用于处理音视频的开源库,可实现不同批量数据的快速转换,包括转成指定采样率的WAV格式。

2.6WAV文件格式

2.7WAV文件分析 

对WAV文件进行处理之前,我们要先了解其格式是否符合规范,如电话录音往往是8kHz,8bits格式,对应的比特率为64kb/s。如果不是所要求的的格式,则要先进行转换,才能做后续的处理或识别。打开WAV文件的属性可查看比特率。

根据生成波形的数量,WAV文件还可分成单声道语音文件和立体声道语音文件。单声道生成一个波形,立体声道一般是双声道,包含两个波形(如下图所示)。如果要进行语音识别,要先将立体声道语音转换为单声道语音。

 要更详细地观察分析语音信号,推荐采用CoolEdit、Praat等专业音频处理工具。

时域图显示语音信号的时间-幅度关系,而语谱图是一种三维图,显示时间-频率-幅度关系,颜色越深表示幅度(能量)越大。详情点击时域图、频谱图等

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐