logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

语音识别特征处理(MFCC,Fbank,PNCC)

语音参数提取特征分帧 ——> 预增强 ——> 加窗 ——> 添加噪声 ——> FFT ——> Mel滤波 ——> 对数运算——> DCT分帧我们需要将不定长的音频切分成固定长度的小段,这一步称为分帧。一般取10-30ms为一帧,为了避免窗边界对信号的遗漏,因此对帧做偏移时候,要有帧迭(帧与帧之间需要重叠一部分)。 一般取帧长的一半作为帧移,也就是每次位移一

#语音识别
语音识别特征处理(MFCC,Fbank,PNCC)

语音参数提取特征分帧 ——> 预增强 ——> 加窗 ——> 添加噪声 ——> FFT ——> Mel滤波 ——> 对数运算——> DCT分帧我们需要将不定长的音频切分成固定长度的小段,这一步称为分帧。一般取10-30ms为一帧,为了避免窗边界对信号的遗漏,因此对帧做偏移时候,要有帧迭(帧与帧之间需要重叠一部分)。 一般取帧长的一半作为帧移,也就是每次位移一

#语音识别
语音识别特征处理(MFCC,Fbank,PNCC)

语音参数提取特征分帧 ——> 预增强 ——> 加窗 ——> 添加噪声 ——> FFT ——> Mel滤波 ——> 对数运算——> DCT分帧我们需要将不定长的音频切分成固定长度的小段,这一步称为分帧。一般取10-30ms为一帧,为了避免窗边界对信号的遗漏,因此对帧做偏移时候,要有帧迭(帧与帧之间需要重叠一部分)。 一般取帧长的一半作为帧移,也就是每次位移一

#语音识别
语音论文阅读(用于自动语言识别的改进的噪声学生训练)

论文:Improved Noisy Student Training for Automatic Speech Recognition摘要:将“noisy student training”这种半监督学习方法应用到语音领域,采用语音增强SpecAugment 来适应和改进这种半监督方法。在LibriSpeech数据集上的效果非常明显,使用100h作为监督训练,其余剩下的作为无监督训练,就能在测试集

语音方向论文阅读

1.Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition摘要模型结构实验结果BABELAishell-1结论利用BERT预训练模型来做语音识别,引入嵌入注意模块将声学信息融入到bert,促进表征学习...

文章图片
#自然语言处理#语音识别#深度学习
第三代语音识别技术初探

全国声学大会语言声学分论坛上的现场报告知识总结原文地址

#语音识别
INTERSPEECH 2020 技术交流会笔记

1.微软报告题目:构建工业级流式端到端语音识别模型主流端到端模型:TransducerS2SAttention mechanism无有搭建组件...

CTC相关知识

简介在语音识别中,我们的数据集是音频文件和其对应的文本,不幸的是,音频文件和文本很难再单词的单位上对齐。除了语言识别,在OCR,机器翻译中,都存在类似的Sequence to Sequence结构,同样也需要在预处理操作时进行对齐,但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。CTC(Connectionist Temp

#人工智能#语音识别
语音论文阅读:使用无监督的预训练改善基于Transformer的语音识别

摘要语音识别技术在各种工业应用中取得了巨大的普及。然而,建立良好的语音识别系统通常需要大量的转录数据,这是昂贵的收集。为了解决这个问题,提出了一种被称为掩蔽预测编码的无监督的预训练方法,其可以应用于与基于Transformer的模型的无监督预传真预测。 HKUST的实验表明,使用相同的训练数据,我们可以实现23.3%,超过最佳端到端模型超过0.2%的绝对CER。通过更多的预训练数据,我们可以进一步

#机器学习#语音识别
语音论文阅读:U2

摘要提出一种双路方法将流式和非流式端到端语音识别模型统一到一个模型中,模型采用混合CTC/attention架构,其中encoder中的conformer结构被修改w

#人工智能#语音识别
    共 15 条
  • 1
  • 2
  • 请选择