logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SPHINX-孤立词语音识别

sphinx 语音识别系统Sphinx 是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。Sphinx的研究工作已经开展了30多年,从李开复等人开发的Sphinxl到现今已经发展到了Sphinx4。Sphinx系统的鲁棒性强、可扩充性很好,并且代码开源代码,使得世界各地语音研究工作者能够利用它进行语音识别的研究工作。本章主要对该系统的构成和理论基础做个详细介绍。Sphinx是开

#sphinx#语音识别
kaldi-yesno例子

"yesno"语料库是一个非常小打一个人的录音数据集,测试集在单声道阶段完全被识别WER(WordError Rate)是字错误率,是一个衡量语音识别系统的准确程度的度量。其计算公式是WER=(I+D+S)/N,I代表被插入的单词个数D代表被删除的单词个数S代表被替换的单词个数通俗来讲是把识别出来的结果中,多认的,少认的,认错的全都加起来,除以总单词数。这个数字当然是越低越..

语音识别研究方向

远场语音识别1)语音激活检测(VAD)```需求背景:在近场识别场景,比如使用语音输入法时,用户可以用手按着语音按键说话,结束之后松开,由于近场情况下信噪比(signal to noise ratio, SNR))比较高,信号清晰,简单算法也能做到有效可靠。但远场识别场景下,用户不能用手接触设备,这时噪声比较大,SNR下降剧烈,必须使用VAD了。```2)语音唤醒 (voice trigger,V

#语音识别
语音识别技术基础知识

语音识别技术让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。语音识别的目的就是让机器赋予人的听觉特性,听懂人说什么,并作出相应的动作。目前大多数语音识别技术是基于统计模式的,从语音产生机理来看,语音识别可以分为语音层和语言层两部分。语音识别技术的主流算法,主要有基于

#语音识别
常用语音数据库

大多数语音识别数据集是专有的,因为这些数据对于创建该数据集的公司来说具有很大价值。因此,这部分的可用公开数据集多数比较陈旧。【学术、陈旧】2000 HUB5 English:仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。 地址:https://catalog.ldc.upenn.edu/LDC2002T43 【学术】LibriSpeech...

#语音识别#数据库
到底了