FSMN及其变种

FSMN及其变种，CFSMN，DFSMN等在语音识别声学模型建模上面相比单纯的DNN，CNN和TDNN等常用模型有一定优势，虽然也引入了一定的时延，相比RNN等复杂时序单元具有计算量和更容易训练的优势，在阿里巴巴语音相关技术上有广泛的应用。这里转载一篇文章，详细介绍了从FSMN到CFSMN到DFSMN的演变，为系统了解FSMN结构提供了比较全面的介绍。转载自：https://blog.csdn.n

yuchiwang

1252人浏览 · 2020-12-21 10:24:47

yuchiwang · 2020-12-21 10:24:47 发布

转载自：https://blog.csdn.net/qq_26778411/article/details/89682447

1.FSMN综述

由于Bi-RNN较高的成功率需要得到整段语音所有未来信息的支持才能实现，因此会带来较长的硬延时，故Bi-RNN不适合作为在线语音识别的模型。故在2015年科大讯飞提出了FSMN（Feedforward Sequential Memory Networks）模型，该模型在很小的延时下，就能取得与Bi-RNN一样的效果。
详见论文：
(1)Feedforward Sequential Memory Neural Networks without Recurrent Feedback 该篇篇幅较短，只介绍了FSMN在Language Model的应用。
(2)Feedforward Sequential Memory Networks: A New Structure to Learn Long-term Dependency 该篇较为详细的描述了FSMN的三个变种，在Acoustic Model和Language Model上的应用。

在FSMN的基础之上，陆陆续续又出现了cFSMN、DFSMN、pyramidal-FSMN等FSMN的变种。
(1)cFSMN:Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition
(2)DFSMN:Deep-FSMN for Large Vocabulary Continuous Speech Recognition
(3)pyramidal-FSMN:A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition