logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

图解N-gram语言模型的原理--以kenlm为例

详细介绍基于N-gram语言模型的原理–从kenlm的源码说起常用的N-gram训练工具有SRILM、IRSTLM、BerkeleyLM和KenLM等。这几种工具所 用的算法思想基本一致,只是在实现细节上有所不同,所以我们只需理解其中一个训 练工具即可。本文以KenLM(号称速度最快,占用内存最少)作为训练工具,对基于N-gram的过程进行详细介绍,所用的平滑技术是Modified Knese..

#语言模型#语音识别
EM算法的原理

在基于HMM-GMM的声学模型训练中,我们经常要使用EM算法进行参数估计;下面我们就介绍下EM算法的原理:

#机器学习
jieba分词详解

语音识别中有一项任务就是训练语言模型,而对于中文的语言模型,需要事先进行分词。而语音识别中的语言模型还有个特殊的要求,就是语言模型中的所有词都必须在发音词典中(也就是说每个词都要有对应的发音)。因此这就限制了我们不能使用Stanford分词,哈工大分词等工具,因为这些分词工具分出来的词有可能不在发音词典中。现在在语音识别任务中最常使用的是scws机械分词,和jieba分词。经过实际比对,发现使用j

#自然语言处理
到底了