语音识别的发展趋势及主要模型

以前的语音识别系统基于高斯混合模型（Gaussian Mixture Model, GMM）和隐马尔可夫模型（Hidden Markov Model），即 GMM-HMM 模型。发展到端对端目前的端到端系统基本上基于两个框架，一个是 CTC（Connectionist Temporal Classification）框架，一个是基于注意力机制的 seq2seq 框架。CTC典型...

yang_daxia

4964人浏览 · 2018-11-22 22:40:46

yang_daxia · 2018-11-22 22:40:46 发布

以前的语音识别系统基于高斯混合模型（Gaussian Mixture Model, GMM）和隐马尔可夫模型（Hidden Markov Model），即 GMM-HMM 模型。

发展到端对端

目前的端到端系统基本上基于两个框架，

一个是 CTC（Connectionist Temporal Classification）框架，

一个是基于注意力机制的 seq2seq 框架。

CTC典型的有百度的deepspeech2, 科大讯飞DFCNN

基于注意力机制seq2seq:谷歌的LAS

2018年阿里开源自研语音识别模型 DFSMN，准确率高达96.04%，识别率最高

开源地址：https://github.com/alibaba/Alibaba-MIT-Speech

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

用 OpenAI Assistants 做大模型应用开发

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

所有评论(0)

查看更多评论

yang_daxia

已为社区贡献13条内容