kaldi 语音识别 lattice-free MMI声学训练

List item在语音识别领域，DT训练能显著提高语音识别系统的性能。DT训练需要所有的单词序列组合来做训练。一般而言我们会先利用交叉熵准则训练一个基准模型，配合使用一个相对较弱的语言模型生成相应的词图(lattice).Lattice里面除了包含与正确识别结果相对应的路径外，还包含与正确路径足够接近的其它路径。DT训练就是要提高模型走正确路径的概率，同时压低走相似路径的概率。近年来CT...

qq_14962179

3430人浏览 · 2019-02-25 11:14:04

qq_14962179 · 2019-02-25 11:14:04 发布

在语音识别领域，DT训练能显著提高语音识别系统的性能。DT训练需要所有的单词序列组合来做训练。一般而言我们会先利用交叉熵准则训练一个基准模型，配合使用一个相对较弱的语言模型生成相应的词图(lattice).Lattice里面除了包含与正确识别结果相对应的路径外，还包含与正确路径足够接近的其它路径。DT训练就是要提高模型走正确路径的概率，同时压低走相似路径的概率。
近年来CTC(Connectionist Temporal Classification连续时序分类)在语音识别领域广受关注，但CTC相比传统模型的优势，需要在很大数据集上才能体现出来，而且CTC训练速度很慢，参数调节更困难。与DT训练中常用的MMI准则类似，CTC训练准则的目标是最大化正确标注的条件概率，而MMI着重优化正确路径与其它相似路径的概率差。
LF-MMI(lattice-free Maximum Mutual Information)训练准则通过在神经网络输出层计算出来所有可能的标注序列，根据这些标注序列计算出相应的MMI信息和相关的梯度，然后通过梯度传播算法完成训练。
LF-MMI准则训练能够在训练过程中直接计算所有可能路径的后验概率(Posterior Probability),省去了鉴别性训练前需要提前生成lattice的麻烦，所以叫做Lattice-free MMI。
在声学模型方面，LFMMI(即povey的chain-model)。提到了LFMMI是吸取了CTC的优点(无lattice，无force-alignment)，仍基于传统DNN-HMM混合系统进行的改进，性能不差于CTC，最主要的是训练稳定，CTC要大量调参。

kaldi chain-model
chain模型来自区分性训练，区分性训练可以稳定降低WER，SER,PER等，主要思想直接以字错误率，句子错误率，音素错误率等为优化目标。区分性训练需要用到很多对齐，lattice词图等临时文件，chain model 改进后不再需要lattice。

MMI训练lattice放在GPU上做(实现时使用了一些trick，包括LM使用4-gram的phone LM等)，不像传统框架下的区分性训练那样生成一个lattice放在那儿，所以叫lattice-free。
借鉴于CTC的一些思路，帧率降到原来的1/3，由于帧率的降低，HMM的结构上做了一些调整，引入了类似CTC里面blank的状态；
防止overfitting，搞了3个正则化。

论文
Purely sequence-trained neural networks for ASR based on lattice-free MMI Daniel Povey 2016
**LFMMI:**为了计算简单，使用了音素n-gram语言模型代替字级别的n-gram；为进一步减小时间和空间复杂度，以帧率1/3的神经网络的输出计算目标函数。降低帧率也可以提供解码加速。
LFMMI相比于CE wer相对降低11.5%，相对CE和sMBR(状态最小贝叶斯准则)降低。
CTC准则最小化正确标注文本的条件对数似然，不同是CTC概率是局部归一化的而MMI是全局归一化的。
特点：
1.无需交叉熵系统初始化，可以从头开始训练，不用做对齐。
2.帧率降低到原来的1/3，用一个更简单的HMM topology。
3.使用有限状态接收器限制监督标签可以出现的时间帧范围。
denominator-lattice-free,分母无词图的，在GPU上对所有可能的标签序列求和。
论文：在GPU上做MMI训练，无lattices，目标函数的分子分母部分使用前向后向算法。