logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

语音识别之HTK入门(三)——单音素单高斯模型

前面两节介绍了语音识别的一些概念,并进行数据的预处理。现在我们有了音频数据转化为MFCC特征向量的文件,以及每个文件对应的音子文件信息。现在进入模型构建部分,包括两个核心部分,一是如何表示音子概率分布;二是如何建模音子之间的转移关系。通过单高斯来建模每个音子的概率分布。意思就是利用一个多维正态分布来拟合每个音字的概率。...

#语音识别
wave文件格式详解

第一节 wav格式scheme介绍wav格式,是微软开发的一种文件格式规范,整个文件分为两部分。第一部分是“总文件头”,就包括两个信息,chunkID,其值为“RIFF”,占四个字节;ChunkSize,其值是整个wav文件除去chunkID和ChunkSize,后面所有文件大小的字节数,占四个字节。第二部分是Format,其值为“wave”,占四个字节。它包括两个子chunk,分别是“fmt ”

#自然语言处理
java虚拟机运行机制

首先简单阐述下解释型语言和编译型语言的联系与区别。编译型语言是通过编译器讲程序编译成目标机器所能识别的机器码,而解释型语言不需要编译过程。由该语言的解释器读取脚本,按照语言规则进行解释,然后调用解释器内建的命令(或者库函数)。例如,C语言的printf()函数经过静态编译后,printf()所需的所以代码都以机器码的形式写入可执行文件中,shell在执行程序时,加载器(Loader)加载该

HERest源码解析

前面解析了HCompV源码,它主要功能是初始化hmm模型,定义一些宏。还没接触到模型训练。HMM模型训练算法是语音识别的算法中的难点之一。它的输入包括所有hmm模型的名称、以及初始的模型参数(在hmmdefs设置好了),特征参数文件(train.scp)和特征文件对应的MLF转写文件(phone0.mlf)。输出就是包含更新后的hmmdefs。先写最重要,也是比较难的,然后再分析一些程序流程、配置

HTK中Vocab字典的结构

在语音识别系统中,发音字典是必备的元素之一。系统通过提供的发音字典在内存中构建一个字典对象,会在后续的训练、解码中使用到。本期blog就来跟踪下这个Vocab的细节是什么样的。首先贴一下这个Vocab的struct代码,大家有个直观的印象。typedef struct {int nwords;/* total number of words */int nprons;/* total number

语音识别之HTK入门(八)——HTK中涉及的数据结构以及它们之间的包含关系

HTK里面涉及很多数据结构,前面断断续续提到HMMSet、HMM、Macro、StateElem、UttInfo等等,非常多,而且关系组合比较复杂。现在用图示的方式展示下,供参考。该图是通过Visio画的,转换成pdf之后效果不好。现在通过网盘下载:链接:https://pan.baidu.com/s/1iB-M6n7glAqg51j4PU_GwA提取码:ause这只是昨天(2020年10月30日

HTK中Lattice词格的结构

Lattice是非常重要的数据结构,它是语音识别系统支持的高层次的抽象语法。一般由定义的gram生成。typedef struct lattice{MemHeap *heap;/* Heap lattice uses */LatFormat format;/* indicate which fields are valid */Vocab *voc;/* Dictionary lattice

语音识别之HTK入门(九)——绑定静音中间状态

前面几篇都是关于Baum—Welch算法及其在HTK中的实现。重点介绍了 HERest命令是如何通过B-W算法来更新模型参数的。总体感觉,我对模型“学习”的流程大体清楚了,但是若了解更多的细节还得花更多时间、精力分析。但是,作为一个入门系列,如果在这里继续纠缠,可能后面的步骤就得虎头蛇尾了,那样得不偿失。现在回顾下前面的步骤,尤其是如何处理【标注文本】的。标注后,我们拿到的文件格式是这样的。S00

#语音识别
语音识别之HTK入门(十)——HTK解码工具HVite源码分析

这一节讲的内容又是语音识别系统非常重要的一环——veterbi解码,前面我们经过了配置文件,处理音频数据,处理标注文本数据、通过Baum-Welch(前向-后向)算法评估模型参数等多个环节,目的都是为了在这一步通过已知的模型来把音频解码成对应的文字,实现对语音的识别功能。这篇如何通俗地讲解 viterbi 算法讲的比较入门,一看就懂,viterbi的实质也的确如此。现在就是要看它在HTK中是如何应

HTKbook翻译之第十二章网络、词典及语言模型

第十二章 网络、词典及语言模型前几章描述了如何处理语音数据和训练各种HMM模型参数。本章及后面几章将集中描述如何通过HTK工具构建语音识别器。本章聚焦在网络和字典。一个词级网络描述了一系列可能被识别的词;对子词(sub word)模型而言,词典描述了构成每个词的系列子词。词级网络的典型代表是通过任务语法(Task Grammar)显示定义的所有合法词序列,或者一个“词循环(Word-loop)”,

#语音识别
    共 19 条
  • 1
  • 2
  • 请选择