hjx5200 个人主页

@hjx5200

hjx5200

2023-03-16 10:04:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

语音识别之HTK入门（三）——单音素单高斯模型

前面两节介绍了语音识别的一些概念，并进行数据的预处理。现在我们有了音频数据转化为MFCC特征向量的文件，以及每个文件对应的音子文件信息。现在进入模型构建部分，包括两个核心部分，一是如何表示音子概率分布；二是如何建模音子之间的转移关系。通过单高斯来建模每个音子的概率分布。意思就是利用一个多维正态分布来拟合每个音字的概率。...

#语音识别

wave文件格式详解

第一节 wav格式scheme介绍wav格式，是微软开发的一种文件格式规范，整个文件分为两部分。第一部分是“总文件头”，就包括两个信息，chunkID，其值为“RIFF”，占四个字节；ChunkSize，其值是整个wav文件除去chunkID和ChunkSize，后面所有文件大小的字节数，占四个字节。第二部分是Format，其值为“wave”，占四个字节。它包括两个子chunk，分别是“fmt ”

#自然语言处理

java虚拟机运行机制

首先简单阐述下解释型语言和编译型语言的联系与区别。编译型语言是通过编译器讲程序编译成目标机器所能识别的机器码，而解释型语言不需要编译过程。由该语言的解释器读取脚本，按照语言规则进行解释，然后调用解释器内建的命令(或者库函数)。例如，C语言的printf()函数经过静态编译后，printf()所需的所以代码都以机器码的形式写入可执行文件中，shell在执行程序时，加载器(Loader)加载该

HERest源码解析

前面解析了HCompV源码，它主要功能是初始化hmm模型，定义一些宏。还没接触到模型训练。HMM模型训练算法是语音识别的算法中的难点之一。它的输入包括所有hmm模型的名称、以及初始的模型参数（在hmmdefs设置好了），特征参数文件（train.scp）和特征文件对应的MLF转写文件（phone0.mlf）。输出就是包含更新后的hmmdefs。先写最重要，也是比较难的，然后再分析一些程序流程、配置

HTK中Vocab字典的结构

在语音识别系统中，发音字典是必备的元素之一。系统通过提供的发音字典在内存中构建一个字典对象，会在后续的训练、解码中使用到。本期blog就来跟踪下这个Vocab的细节是什么样的。首先贴一下这个Vocab的struct代码，大家有个直观的印象。typedef struct {int nwords;/* total number of words */int nprons;/* total number

语音识别之HTK入门（八）——HTK中涉及的数据结构以及它们之间的包含关系

HTK里面涉及很多数据结构，前面断断续续提到HMMSet、HMM、Macro、StateElem、UttInfo等等，非常多，而且关系组合比较复杂。现在用图示的方式展示下，供参考。该图是通过Visio画的，转换成pdf之后效果不好。现在通过网盘下载：链接：https://pan.baidu.com/s/1iB-M6n7glAqg51j4PU_GwA提取码：ause这只是昨天（2020年10月30日

HTK中Lattice词格的结构

Lattice是非常重要的数据结构，它是语音识别系统支持的高层次的抽象语法。一般由定义的gram生成。typedef struct lattice{MemHeap *heap;/* Heap lattice uses */LatFormat format;/* indicate which fields are valid */Vocab *voc;/* Dictionary lattice

语音识别之HTK入门（九）——绑定静音中间状态

前面几篇都是关于Baum—Welch算法及其在HTK中的实现。重点介绍了 HERest命令是如何通过B-W算法来更新模型参数的。总体感觉，我对模型“学习”的流程大体清楚了，但是若了解更多的细节还得花更多时间、精力分析。但是，作为一个入门系列，如果在这里继续纠缠，可能后面的步骤就得虎头蛇尾了，那样得不偿失。现在回顾下前面的步骤，尤其是如何处理【标注文本】的。标注后，我们拿到的文件格式是这样的。S00

#语音识别

语音识别之HTK入门（十）——HTK解码工具HVite源码分析

这一节讲的内容又是语音识别系统非常重要的一环——veterbi解码，前面我们经过了配置文件，处理音频数据，处理标注文本数据、通过Baum-Welch（前向-后向）算法评估模型参数等多个环节，目的都是为了在这一步通过已知的模型来把音频解码成对应的文字，实现对语音的识别功能。这篇如何通俗地讲解 viterbi 算法讲的比较入门，一看就懂，viterbi的实质也的确如此。现在就是要看它在HTK中是如何应

HTKbook翻译之第十二章网络、词典及语言模型

第十二章网络、词典及语言模型前几章描述了如何处理语音数据和训练各种HMM模型参数。本章及后面几章将集中描述如何通过HTK工具构建语音识别器。本章聚焦在网络和字典。一个词级网络描述了一系列可能被识别的词；对子词（sub word）模型而言，词典描述了构成每个词的系列子词。词级网络的典型代表是通过任务语法（Task Grammar）显示定义的所有合法词序列，或者一个“词循环（Word-loop）”，

#语音识别

共 19 条

请选择