语音识别研究综述——阅读笔记1

摘要：语音识别使声音变得“可读”，让计算机能够“听懂”人类的语言并做出反应，是人工智能实现人机交互的关键技术之一。本文介绍了语音识别的发展历程，阐述了语音识别的原理概念与基础框架，分析了语音识别领域的研究热点和难点，最后，对语音识别技术进行了总结并就其未来研究进行了展望。.....................

我是小蔡呀～～～

572人浏览 · 2022-06-13 18:08:12

我是小蔡呀～～～ · 2022-06-13 18:08:12 发布

摘要：语音识别使声音变得“可读”，让计算机能够“听懂”人类的语言并做出反应，是人工智能实现人机交互的关键技术之一。本文介绍了语音识别的发展历程，阐述了语音识别的原理概念与基础框架，分析了语音识别领域的研究热点和难点，最后，对语音识别技术进行了总结并就其未来研究进行了展望。

语音识别技术的发展历程

语音识别技术始于20世纪50年代，贝尔实验室研发了10个孤立数字的语音识别系统
第一阶段：探索阶段。这一阶段主要实现了小词汇量、孤立词的语音识别。
主要通过模板匹配——即将待识别的语音特征与训练中的模板进行匹配——进行语音识别。
典型的方法：
1.动态时间规整（DTW）技术
DTW依靠动态规划（DP）技术解决了语音输入输出不定长的问题。
2.矢量量化（VQ）
VQ是对词库中的字、词等单元形成矢量量化的码作为模板，再用输入的语音特征矢量与模板相匹配。

第二阶段 ：主要以隐马尔科夫模型（HMM）为基础的概率统计模型为主，识别的准确率和稳定性都得到极大提升。
经典成果：
1.1990年李开复等研发的SPHINX系统。该系统以GMM-HMM为核心框架，是有史以来第一个高性能的非特定人、大词汇量、连续语音识别系统。GMM-HMM结构至今仍然是学习、理解语音识别技术的基石。
2.剑桥推出了以HMM为技术的语音识别工具包HTK。

第三阶段：建立在深度学习基础上，得益于神经网络对非线性模型和大数据的处理能力，取得了大量成果。
2009年Mohamed等提出深度置信网络（DBN）与HMM相结合的声学模型在小词汇量连续语音识别中取得成功。2012年深度神经网络与HMM相结合的声学模型DNN-HMM在大词汇量连续语音识别（LVCSR）中取得成功。
此后，CNN、RNN等常见网络为基础的混合识别系统和端到端识别系统都获得了不错的识别结果和系统稳定性。至今，以神经网络为基础的语音识别系统仍旧是国内外学者的研究热点。

我国语音识别研究现状：
起步于国家的“863计划”和“973计划”，如今中文语音识别技术已经达到了国际水准。
2015年清华大学建立了第一个开源的中文语音数据库THCHS-30。
2016年上海交通大学提出的非常深卷积网络（VDCNN）提高了噪声语音识别的性能，并在此基础上进一步提出了非常深卷积残差网络（VDCRN）。
百度于2014年、2016年依次推出了DeepSpeech及其改进版本，并在2017年提出Cold Fusion以便于更好地利用语言学信息进行语音识别，该系统以LSTM-CTC的端到端模型为基础，在不同的噪声环境下实现了英语和普通话的语音识别。
2018年科大讯飞提出的深度全序列卷积神经网络（DFCNN）直接对语音信号进行建模，该模型采用的大量叠加卷积层能够储存更多历史信息，获得了良好的识别效果。同年，阿里巴巴提出低帧率深度前馈记忆网络（LFR-DFSMN），将低帧率算法和DFSMN算法相结合，使错误率降低了20%，解码速度提升了近3倍。