
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
首先,hamming()函数的作用是返回一个L点的对称海明窗列向量w。语音信号一般在10ms到30ms之间,我们可以把它看成是平稳的。为了处理语音信号,我们要对语音信号进行加窗,也就是一次仅处理窗中的数据。因为实际的语音信号是很长的,我们不能也不必对非常长的数据进行一次性处理。明智的解决办法就是每次取一段数据,进行分析,然后再取下一段数据,再进行分析。怎么仅取一段数据呢?一种方式就是构造一个...
Machine learning机器学习是Artificial inteligence的核心,分为四类:1、Supervised learning监督学习是有特征(feature)和标签(label)的,即便是没有标签的,机器也是可以通过特征和标签之间的关系,判断出标签。举例子理解:高考试题是在考试前就有标准答案的,在学习和做题的过程中,可以对照答案,分析问题找出方法。在高考题没有给出答案的时..
博弈论是用于分析和研究参与主体的行为之间相互影响以及影响后决策均衡问题的理论。博弈论使用严谨的数学模型解决现实中利害冲突,是研究具有斗争或竞赛性质现象的数学方法。一个标准的博弈模型由多个元素组成,可以用一个三元函数来表示。在博弈理论中,纳什均衡代表着博弈过程中的稳定状态,在参与者的策略集合中,当没有一个参与者可以靠改变自身策略来提高自身收益时,此时参与者的策略集合即纳什均衡。潜在博弈是博弈的...
首先想说的就是这个数据集,官方给的介绍也太敷衍了,完全是没有价值的介绍。EMO-DB数据集是由柏林工业大学录制的德语情感语音库,由10位演员(5男5女)对10个语句(5长5短)进行7种情感(中性/nertral、生气/anger、害怕/fear、高兴/joy、悲伤/sadness、厌恶/disgust、无聊/boredom)的模拟得到,共包含800句语料,采样率48kHz(后压缩到16kHz),.
深度神经网络(Deep Neural Networks, 以下简称DNN)是深度学习的基础,而要理解DNN,首先我们要理解DNN模型,下面我们就对DNN的模型与前向传播算法做一个总结。1.从感知机到神经网络感知机的模型是一个有若干输入和一个输出的模型,如下图:输出和输入之间学习到一个线性关系,得到中间输出结果:z=∑i=1mwixi+bz=∑i=1mwixi+b接着是一个神经元激活函数...
深度神经网络(Deep Neural Networks, 以下简称DNN)是深度学习的基础,而要理解DNN,首先我们要理解DNN模型,下面我们就对DNN的模型与前向传播算法做一个总结。1.从感知机到神经网络感知机的模型是一个有若干输入和一个输出的模型,如下图:输出和输入之间学习到一个线性关系,得到中间输出结果:z=∑i=1mwixi+bz=∑i=1mwixi+b接着是一个神经元激活函数...
深度学习–迁移学习在使用训练好的模型时,其中有一种保存的模型文件格式叫.npy。打开方式·实现代码:import numpy as nptest=np.load('./bvlc_alexnet.npy',encoding = "latin1")#加载文件doc = open('1.txt', 'a')#打开一个存储文件,并依次写入print(test, file=doc)#...
使用Debug调试代码1.打断点一个断点标记了一个代码行,当Pycharm运行到该行代码时会将程序暂时挂起。注意断点会将对应的代码行标记为红色,取消断点的操作也很简单,在同样位置再次单击即可。如图所示,打了两个断点当你将鼠标指针悬停在断点上方时,Pycharm会显示断点的关键信息,行号以及脚本属性,如果你希望更改该断点的属性,右击断点:可以尝试对断点属性进行个性化更改,然后观察图标...
OK,沉迷了快两个星期,终于有进展了啊啊啊!!!这段时间内心崩溃,感觉毫无思路,但是我没放弃!!!看了许多论文,然后代码在这个星期也终于调通了。不过还是有很多地方值得优化,后面再继续努力吧!其实我个人觉得语音识别这一块的商用还不够,情感识别就更别说了,而且识别率这一块有待提升。开始正题数据集用的是EMO-DB数据集。并以此充当训练集,测试集自己想用哪些音频就可以用哪些音频,但是命名和文件路...
CTC算法全称叫:Connectionist temporal classification。从字面上理解它是用来解决时序类数据的分类问题,也即用来解决输入序列和输出序列难以一一对应的问题。举例来说,在语音识别中,我们希望音频中的音素和翻译后的字符可以一一对应,这是训练时的一个很天然的想法。但是要对齐是一件很困难的事,有人说话快,有人说话慢,每个人说话快慢不同,不可能手动地对音素和字符对齐,这样.







