端到端语音识别

传统语音识别由多个模块组成,彼此独立训练,但各个子模块的训练目标不一致,容易产生误差积累,使得子模块的最优解并不一定是全局最优解。
针对这一问题,提出了端到端语音识别,直接对等式(1)中的概率P(W|X)进行建模,将输入的语音波形(或特征矢量序列)直接转换成单词、字符序列。
端到端的语音识别将声学模型、语言模型、发音词典等模块容纳至一个系统,通过训练直接优化最终目标,如词错误率(WER)、字错误率(CER),极大地简化了整个建模过程。
目前端到端的语音识别方法主要有:基于 连接时序分类(CTC) 和基于 注意力机制(attention model) 两类方法及其改进方法。
CTC 引入空白符号(blank)解决输入输出序列不等长问题, 最大化所有可能对应的序列概率之和 ,无需考虑语音帧和字符的对齐关系,只需要输入和输出就可以训练。基于CTC的模型结构简单,可读性强,但对发音词典和语言模型的依赖性较强,且需要做 独立性假设。RNN-Transducer模型加入一个语言模型预测网络,并和CTC网络通过一层全连接层得到新的输出,解决了CTC输出需要做条件独立性假设的问题,能够对历史输出和历史语音特征进行信息积累。
基于注意力机制的端到端模型能够自动实现两种语言的不同长度单词序列之间的转换,该模型主要由编码网络、解码网络和注意力子网络组成。编码网络将语音特征序列经过深层神经网络映射成高维特征序列,注意力网络 分配权重系数,解码网络 负责输出预测的概率分布。Listen-Attend-Spell(LAS)模型,真正实现了端到端,所有组件联合训练,也无独立性假设要求,但LAS模型需要对整个输入序列之后进行识别,因此实时性较差。

语音识别的难点与热点

面临的挑战:
1.鲁棒性语音识别
针对复杂环境研究鲁棒语音识别任务面临很大挑战。
研究方向:
(1)在语音识别前端,利用信号处理技术提高信号质量;
(2)寻找新的鲁棒性特征,尽可能消除非目标语音信号的影响;
(3)模型的改进与自适应;
(4)多模态数据融合。
2.低资源语音识别
这是对各种小语种语音识别研究的统称。解决这一问题的基本思路:从主流语言的丰富资源中提取共性,训练出可以公用的模型,在此基础上训练小语种模型。然而,小语种种类繁多,为了单独一种建立识别系统耗费过多资源不划算,因此现在主要研究多语言融合的语音识别系统。
3.语音的模糊性
各种语言中存在的相似发音的词语,不同的讲话者存在不同的发音习惯以及口音、方言等问,难以针对单独的口音构建模型。
针对多口音建模问题,现有的方法一般可分为与口音无关和与口音相关两大类。
目前方法:
(1)通过特定口音模型的集合建立统一的多口音识别模型
(2)通过多任务学习将声学模型和口音识别分类器联合
(3)基于GAN构建预训练网络从声学特征中区分出不变的口音
4.低计算资源
精度高效果好的神经网络模型往往需要大量的计算资源且规模巨大,需要对模型进行压缩及加速。
目前针对深度学习模型采用的压缩方法:网络剪枝、参数量化、知识蒸馏等。
例:
(1)采用网络剪枝的方法构建动态稀疏神经网络,通过动态调整以适应不同资源和能量约束的多种硬件类型的能力
(2)通过量化网络参数减少内存占用并加快计算速度
(3)知识蒸馏能够将复杂模型迁入小模型,已应用于对语音识别系统的语言模型、声学模型和端到端模型等进行压缩

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐