logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

语音识别——TDNN时延神经网络

参考:http://www.inf.ed.ac.uk/teaching/courses/asr/lectures-2019.htmlhttps://blog.csdn.net/richard2357/article/details/16896837https://zhuanlan.zhihu.com/p/28283265相当于CNN的前身,相当于1dcnn,即一维CNN。它的共享权重被限制在...

kaldi nnet1

nnet1训练用到的技术:每一层进行预训练,基于RBMs(受限玻尔兹曼机)以一帧为单位进行交叉熵训练序列鉴别性训练准则,MMI准则用来lattice框架,以sMBR准则作为优化目标使用早停止系统是建立在LDA-MLLT-FMLLR特征(从辅助的GMM模型中得到)之上的,训练要用到GPU+CUDA。LDA(Linear Discriminant Analysis 线性判别分析)MLL...

#语音识别
语音识别实践——第2、3章:GMM,HMM

GMM高斯混合模型HMM隐马尔科夫模型EM算法GMM参数估计(EM算法应用)GMM-HMM模型训练Baum-Welch算法(HMM前向后向算法,EM算法应用)维特比(Viterb)算法(动态规划算法的实际应用)...

#语音识别
语音与语言处理笔记——10语音识别

multipass decoding:N-Best lists and latticesA stack decodingcontext-dependent acounstic models:三音素discriminative training区分性训练modeling variation

#语音识别
GMM

单变量高斯分布 均值,方差多元变量高斯分布 均值,协方差矩阵单变量混合高斯分布多元混合高斯分布混合成分M的数量是一个先验值,主流做法是直接选取。语音识别中,输入向量x的维度很大时,用对角协方差矩阵代替全协方差矩阵,以减少参数量。参数估计:{cm,μm,Σm{c_m},{\mu _m},{\Sigma _m}cm​,μm​,Σm​}EM(期望最大化算法)是MLE...

语音识别实践——加速解码

1.量化及并行计算技术现代CPU通常支持低级的单指令多数据(single instruction multiple data,SIMD)指令级并行。对隐藏层的激活值,权重,偏执值进行量化(quantization).2.稀疏DNN3.低秩分解技术—SVD4.多帧DNN计算技术...

#语音识别
语音与语言处理笔记——9.语音识别

语音识别系统结构语音识别中HMM的应用特征提取:MFCCcomputing acounstic likelihoods计算声学似然度字典和语言模型search and decoding搜索解码embedded trainingevaluation评估:WER,SER...

#语音识别
语音识别实践7.1——训练加速

GPU流水线反向传播异步随机梯度下降增广拉格朗日算法及乘子方向交替算法减小模型规模改善训练速度可以通过更好的训练算法或者使用更小的模型。DNN中的权值矩阵大体上是低秩的,且DNN最后一层占用了系统50%的模型参数以及训练计算量。且DNN任意层只有最大的30%~40%的权重是重要的,每个权值矩阵可以近似地进行低秩分解且没有识别精度的损失。使用SVD,每个权值矩阵可以分解为两个更小的矩阵,...

语音识别中DT训练和ML的区别

X表示训练数据中的语音信号,W代表训练数据中的文本,θ\thetaθ代表声学模型参数,LM语言模型是固定的。ML的目标函数是:θ^ML=arg⁡max⁡θpθ(X∣W){{\hat \theta }_{ML}} = \arg \mathop {\max }\limits_\thetap{}_\theta (X|W)θ^ML​=argθmax​pθ​(X∣W)而DT的目标函数是:θ^DT...

语音识别实践——第6章总结2:

CD-DNN-HMM带来语音识别性能提升的三大关键因素是:1)使用足够深的神经网络;2)使用一长段的帧作为输入;3)直接对三因素进行建模。1.进行比较和分析的数据集实验:a.必应(bing)移动语音搜索数据集:数据分为训练集、开发集、测试集,避免三个集合之间重复。语言模型:一元词组、二元词组、三元词组。语言模型混淆度/困惑度:PPL(Perplixity),度量语言模型性能。PP...

#语音识别
    共 20 条
  • 1
  • 2
  • 请选择