
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
远程访问服务器上tensorboard的可视化训练结果

1.中国科学技术大学语音及语言信息处理国家工程实验室语音及语言信息处理国家工程实验室,英文缩写为:“NEL-SLIP”。围绕语音及语言核心技术及产业发展需要,建立语音及语言技术研究、工程化应用的研究开发平台和测试验证平台,开展自然人机交互、人工智能、海量信息处理及挖掘等重点领域的研究并实现产业化,形成从核心技术研究到技术运营服务的完整产业链,提升我国在相关领域的自主创新能力和核心竞争力,促进我国语

第一节 wav格式scheme介绍wav格式,是微软开发的一种文件格式规范,整个文件分为两部分。第一部分是“总文件头”,就包括两个信息,chunkID,其值为“RIFF”,占四个字节;ChunkSize,其值是整个wav文件除去chunkID和ChunkSize,后面所有文件大小的字节数,占四个字节。第二部分是Format,其值为“wave”,占四个字节。它包括两个子chunk,分别是“fmt ”
首先简单阐述下解释型语言和编译型语言的联系与区别。编译型语言是通过编译器讲程序编译成目标机器所能识别的机器码,而解释型语言不需要编译过程。由该语言的解释器读取脚本,按照语言规则进行解释,然后调用解释器内建的命令(或者库函数)。例如,C语言的printf()函数经过静态编译后,printf()所需的所以代码都以机器码的形式写入可执行文件中,shell在执行程序时,加载器(Loader)加载该
以前一直不知道如何将vim文件中的内容,比如某命令行,复制到linux的Terminal下执行。因为在.vimrc里有set mouse=a,所以vim的编辑光标跟随鼠标,这样就不能用鼠标右键进行复制了。可以通过按住shift键,然后用鼠标左键选择需要复制的内容,这时选中的内容就在Xserver的选择缓冲区(不是系统剪贴板),在不同的terminal或者vim之间都可以通过shift+Ins
前面解析了HCompV源码,它主要功能是初始化hmm模型,定义一些宏。还没接触到模型训练。HMM模型训练算法是语音识别的算法中的难点之一。它的输入包括所有hmm模型的名称、以及初始的模型参数(在hmmdefs设置好了),特征参数文件(train.scp)和特征文件对应的MLF转写文件(phone0.mlf)。输出就是包含更新后的hmmdefs。先写最重要,也是比较难的,然后再分析一些程序流程、配置
在语音识别系统中,发音字典是必备的元素之一。系统通过提供的发音字典在内存中构建一个字典对象,会在后续的训练、解码中使用到。本期blog就来跟踪下这个Vocab的细节是什么样的。首先贴一下这个Vocab的struct代码,大家有个直观的印象。typedef struct {int nwords;/* total number of words */int nprons;/* total number
HTK里面涉及很多数据结构,前面断断续续提到HMMSet、HMM、Macro、StateElem、UttInfo等等,非常多,而且关系组合比较复杂。现在用图示的方式展示下,供参考。该图是通过Visio画的,转换成pdf之后效果不好。现在通过网盘下载:链接:https://pan.baidu.com/s/1iB-M6n7glAqg51j4PU_GwA提取码:ause这只是昨天(2020年10月30日
Lattice是非常重要的数据结构,它是语音识别系统支持的高层次的抽象语法。一般由定义的gram生成。typedef struct lattice{MemHeap *heap;/* Heap lattice uses */LatFormat format;/* indicate which fields are valid */Vocab *voc;/* Dictionary lattice
前面几篇都是关于Baum—Welch算法及其在HTK中的实现。重点介绍了 HERest命令是如何通过B-W算法来更新模型参数的。总体感觉,我对模型“学习”的流程大体清楚了,但是若了解更多的细节还得花更多时间、精力分析。但是,作为一个入门系列,如果在这里继续纠缠,可能后面的步骤就得虎头蛇尾了,那样得不偿失。现在回顾下前面的步骤,尤其是如何处理【标注文本】的。标注后,我们拿到的文件格式是这样的。S00







