FSMN及其变种,CFSMN,DFSMN等在语音识别声学模型建模上面相比单纯的DNN,CNN和TDNN等常用模型有一定优势,虽然也引入了一定的时延,相比RNN等复杂时序单元具有计算量和更容易训练的优势,在阿里巴巴语音相关技术上有广泛的应用。这里转载一篇文章,详细介绍了从FSMN到CFSMN到DFSMN的演变,为系统了解FSMN结构提供了比较全面的介绍。

转载自:https://blog.csdn.net/qq_26778411/article/details/89682447

1.FSMN综述

     由于Bi-RNN较高的成功率需要得到整段语音所有未来信息的支持才能实现,因此会带来较长的硬延时,故Bi-RNN不适合作为在线语音识别的模型。故在2015年科大讯飞提出了FSMN(Feedforward Sequential Memory Networks)模型,该模型在很小的延时下,就能取得与Bi-RNN一样的效果。
详见论文:
(1)Feedforward Sequential Memory Neural Networks without Recurrent Feedback 该篇篇幅较短,只介绍了FSMN在Language Model的应用。
(2)Feedforward Sequential Memory Networks: A New Structure to Learn Long-term Dependency 该篇较为详细的描述了FSMN的三个变种,在Acoustic Model和Language Model上的应用。

     在FSMN的基础之上,陆陆续续又出现了cFSMN、DFSMN、pyramidal-FSMN等FSMN的变种。
(1)cFSMN:Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition
(2)DFSMN:Deep-FSMN for Large Vocabulary Continuous Speech Recognition
(3)pyramidal-FSMN:A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐