语音识别概述

什么是语音识别?英文解释就是：Automatic Speech Recognition(ASR) 或者Speech to Text(STT)就是将语音信号转换成文本，但是注意以下几点:只负责解决机器听清问题，不负责听懂的问题;是要处理声学和（部分）语言上的混淆;. 如“帮我拿快递” or “帮我拿块地”解决“共性”问题：每个人的语音都能识别出正确的文本但是不能解决谁在说话（声纹识别）、话是怎么说的

Y~J~L

1697人浏览 · 2021-06-22 09:36:56

Y~J~L · 2021-06-22 09:36:56 发布

什么是语音识别?
英文解释就是：Automatic Speech Recognition(ASR) 或者Speech to Text(STT)
就是将语音信号转换成文本，但是注意以下几点:

只负责解决机器听清问题，不负责听懂的问题;
是要处理声学和（部分）语言上的混淆;
. 如“帮我拿快递” or “帮我拿块地”
解决“共性”问题：每个人的语音都能识别出正确的文本
但是不能解决谁在说话（声纹识别）、话是怎么说的（情感状态质量）、说的是什么意思（语言理解）

语音识别怎么评估呢？
准确率：
• 音素错误率 (Phone Error Rate)
• 词错误率 (Word Error Rate, WER)
• 字错误率 (Character Error Rate, CER)
• 句错误率 (Sentence Error Rate, SER)
• 实时率 (Real-time Factor, RTF)
下图就是一个统计错误率的一个例子：

其中Subdtitutions 是替换错误，Deletions是删除错误，Insertions是插入错误；
Ref：那一行是原本完整的数据；
Hyp：是识别出的数据；
第一个矩形框，是删除错误，指的是在识别过程中，THE没有识别出来、第二个矩形框是替换错误，将IN错误识别了IS、第三个矩形框是插入错误，本来没有ON却错误的识别了Ins、第四个矩形框也是插入错误；
则错误率就是，这些出现的错误与原先正确的字词的比值；

语音识别的分类
•说话人：特定人、非特定人
• 语种：单一语种、多语种
• 词汇量：大、中、小
• OOV：Out of Vocabulary
• 设备：云侧、端侧
• 距离：近讲、远讲…

语音生成
音素（Phonemes）：一种语言中语音的“最小”单元(primitive sounds) 音素的维基百科
词/语素（morpheme）：一种语言中最小的具有语义的结构单元
共振峰(formant)指在声音的频谱中能量相对集中的一些区域(语谱峰值)，共振峰是一个很重要的概念；

共振峰不但是音质的决定因素，而且反映了声道(共振腔)的物理特征。
声音在经过共振腔时，受到腔体的滤波作用，使得频域中不同频率的能量重新分配，一部分因为共振腔的共振作用得到强化，另一部分则受到衰减，得到强化的那些频率在时频分析的语图表现为浓重的黑色条纹。
由于能量分布不均匀，强的部分犹如山峰一般，故而称之为共振峰
共振峰是被声道特别放大的频带; 由于不同元音在声道内不同位置产生，不同元音会产生不同种类的放大或共振。
第一和第二个共振峰(F1和F2)对于区分不同元音尤为重要。

如图所示，根据不同的振动峰，来区分不同的元音
协同发音：在发音的时候，一个词是受到上下文发音的影响的，这就叫做协同发音；音素在声学上的实现和上下文强相关
音素抄本：一段语音对应的音素列表，如下图所示
在这里插入图片描述
音节：元音和辅音结合构成一个音节
•在元音之前的辅音，叫作音节头(onset)或称声母(initial)
• 在音节头之后的元音及随后的子音被叫作韵母(rime)
• 而韵母里的元音叫作音节核(nucleus)
• 随后的子音叫作音节尾(coda)
在这里插入图片描述

点击阅读全文

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生