【语音识别入门】概述

Automatic Speech Recognition（ASR）或Speech to Text（STT），将语音转换为文本的任务。

一个很菜的小猪

1325人浏览 · 2022-08-24 12:10:45

一个很菜的小猪 · 2022-08-24 12:10:45 发布

1、语音识别的定义

Automatic Speech Recognition（ASR）或Speech to Text（STT），将语音转换为文本的任务。

2、语音识别的常用评估标准：

（1）Accuracy（准确率）

音素错误率（Phone Error Rate）
词错误率（Word Error Rate，WER）
字错误率（Character Error Rate，CER）
句错误率（Sentence Error Rate，SER）

（2）Efficiency（效率）

实时率（Real-time Factor，RTF）

3、语音生成

（1）音素：一种语言中语音的“最小”单元。音素可以分为辅音音素和元音音素，不同的语言中音素的数量不完全相同

（2）词素：一种语言中最小的具有语义的结构单元

（3）共振峰：指声音的频谱中能量相对集中的一些区域

（4）协同发音：人的发音过程中，受类似惯性的影响，每一个发音都会受到前面发音和后面发音的影响，音素在声学上的实现和上下文是强相关的

（5）音节：一个更大颗粒度的单位，元音和辅音结合构成一个音节

在中文中，一个汉字读音为一个带调音节，普通话约1300多个带调音节，如果去掉声调，即基础音节，普通话约400个基础音节。

4、语音感知

（1）响度：人主管感受不同频率成分声音的物理量

（2）音色：由声音波形的谐波频谱和包络决定

（3）音调：对于频率的感知，非线性的，近似对数函数

在这里插入图片描述

f：物理频率
Tmel：音调
Mel：单位

5、语音识别的深度学习时代

2006年，多伦多大学Geoffrey Hinton教授在Nature上发表论文，为神经网络提供了有效的预训练算法，标志着语音识别进入深度学习时代。这个阶段声学架构从GMM-HMM转变为DNN-HMM，语言模型也转变为ngram+NNLM。在深度学习时代，语音识别错误率在众多Benchmark上取得新低，目前在IBM，Switchboard数据集上词错误率已达到5.0%，语音系统开始逐步从混合系统（Hybrid）发展到端到端系统。