一、语音数据的采样

        语音数据的本质就是声波,而声波是一个连续的数据,又计算机存储的是离散的数据,所以想要计算机来存储声波数据,就需要对原始声波数据进行采样。

        编码: 从声波信号采样获得音频图谱。
        解码: 从音频图谱还原回声波信号。

(1)采样率
        采样率: 每秒采集数据的次数,单位为赫兹(HZ)。理论.上采样率越高,声音的还原度越高,但是基于采样定理而言,采样率是有一个最高限度的。

(2)采样精度
        采样精度:每次采集数据的位数每次采样得到的点一般是一个浮点数,保存在计算中,需要什么精度的方式来保存。一般以1个字节8bit、2个字节16bit、4个字节32bit等精度来保存,单位为bit/s.

(3)通道数
        通道数:存在几路音频。通道数和图像通道类似,比如左声道,右声道,比如早期的DVD影片,一个是普通话,一个是粤语。

(4)比特率

        比特率:针对编码格式,表示压缩编码后每秒的音频数据量大小。
        平时我们接触到的音频都是被压缩过后的,根据原始声波采样得到的音频文件比较大。一般原始的采样音频播放文件都是wav格式,wav属于无损压缩,而MP3等都是有损压缩,压缩格式也称为编码格式,比特率就是解压缩率,即编码率。比特率越大,被压缩的数据还原度越高。高清音频的比特率一般往往比普通音频要大。

(5)音频的帧
        音频的帧的概念没有视频帧那么清晰,几乎所有视频编码格式都可以简单的认为一帧就是编码后的一副图像。

        但音频帧跟编码格式相关,它是各个编码标准自己实现的。因为如果以PCM(仅包括未经编码的音频数据,从原始声波数据采样,PCM是不能直接被解码器解码播放的,还需要经过采样率、采样精度等参数来解码还原)来说,它根本就不需要帧的概念,根据采样率和采样精度就可以播放了。比如采样率为44.1HZ,采样精度为16位的音频,你可以算出bitrate (比特率)是4410016kbps,每秒的音频数据是固定的4410016/8字节。

(6)将数据读入模型

a、将保存好的wav、MP3等音频文件解码成PCM格式,获得音频数据。

b、将不同的音频文件数据化并对齐,一般使用自适应平均池化,固定音频的长度。

c、将数据化的音频样本输入神经网络训练。

d、将其他同类音频数据输入训练好的模型中测试

二、语音识别的问题

        当前技术还存在很多不足,如对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升;另外,多人语音识别和离线语音识别也是当前需要重点解决的问题。虽然语音识别还无法做到无限制领域、无限制人群的应用,但是至少从应用实践中我们看到了一些希望。

语音识别主要有以下五个问题:

1、对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。

2、语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。

3、语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。

4、单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。

5、环境噪声和干扰对语音识别有严重影响,致使识别率低。

三、语音识别的应用

微软小娜、客服机器人、家居助手小度、小爱、天猫精灵、手机语音助…

四、语音识别的其它操作

(1)语音唤醒(使用特定词唤醒设备)
(2)语音命名(使用特定词进行特定的操作)
(3)声纹识别(语音解锁)
(4)语音生成(类似图像生成,生成特定的一段语音)

五、国内深度学习语音识别模型发展状况

        2018年,科大讯飞提出深度全序列卷积神经网络(DFCN),DFCNN使用大量的卷积直接对整句语音信号进行建模,主要借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多卷积池化层对,从而可以看到更多的历史信息。

        2018年,阿里提出LFR-DFSMN(LowerFrameRate-Deep Feedforward Sequential Memory Networks)。该模型将低帧率算法和DFSMN算法进行融合,语音识别错误率相比上一代技术降低20%,解码速度提升3倍。FSMN 通过在FNN的隐层添加一些可学习的记忆模块,从而可以有效的对语音的长时相关性进行建模。而DFSMN是通过跳转避免深层网络的梯度消失问题,可以训练出更深层的网络结构。

        2019年,百度提出了流式多级的截断注意力模型SMLTA,该模型是在LSTM和CTC的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。其中流式表示可以直接对语音进行一个小片段一个小片段的增量解码;多级表示堆叠多层注意力模型;截断则表示利用CTC模型的尖峰信息,把语音切割成一个一个小片段,注意力模型和解码可以在这些小片段上展开。在线语音识别率上,该模型比百度上一代DeepPeak2模型提升相对15%的性能。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐