logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

python setup.py bdist_wheel生成wheel文件,示例:安装webrtcvad

webrtcvad因此需要利用setup.py进行安装本文还提供了Python3.7下,webrtcvad的最新版本(2.0.11.dev0,最后一次更新是2021年2月)的win_amd64和linux_armv7l架构wheel文件的下载链接链接:https://pan.xunlei.com/s/VNNarY2ackt_NZSmMRcOja8eA1 # 提取码:wj6g。

#python#开发语言#webrtc +1
解决:VSCode 转到定义 (Go to Definition) 失效,代码高亮失效,自动补全失效,代码格式化失效

解决:VSCode 转到定义 (Go to Definition) 失效,代码高亮失效,自动补全失效,代码格式化失效

文章图片
#vscode#ide#编辑器
深入理解MFCC(梅尔频率倒谱系数)

取得13个系数后,还会在时序上,对13个系数求一阶差分和二阶差分,二阶差分等价于对一阶差分求一阶差分。表示第n帧的13个系数,将一阶差分和二阶差分与原函数值拼接起来,得到39个系数。通常选取前12个系数,再拼接一个当前frame的能量,共13个。MFCC的输出可以表示为一个二维数组,shape为。越靠前的系数,包含越多的基频和共振峰的信息。,由于是二维数组,所以可以用热力图可视化。

文章图片
#python#算法#语音识别
说话人识别中的数据预处理和数据增强

解决方案是:利用源领域的语音和文本数据,合成目标领域的语音数据。合成的数据并不是真正的目标领域数据,而是一种近似(Proxy)数据。上述的时频域增强和时域增强,提高了录音设备和声学环境的多样性。那么对于说话人和文本的多样性,就需要用到语音合成增强方法。语音合成增强的核心在于,利用多说话人语音合成模型,输入说话人嵌入码和文本内容,就能合成对应的语音。关于多说话人语音合成模型,可参考。

文章图片
#人工智能#语音识别
说话人识别中的数据需求

机器学习领域名言“Garbage In, Garbage Out!”不论神经网络多么先进,如果输入是垃圾,那么输出也一定是垃圾在说话人识别领域,所需的最小数据单元,包括:一段只包含单一说话人语音的音频,被称为Utterance(话语)该段音频的说话人标签,能够唯一地在整个数据集中标识该说话人怎么样的数据不是Garbage呢?或者说,如何评价一个数据集的质量呢?有以下这些指标:说话人的数量每个说话人

#人工智能#python#语音识别
ROC与AUC,DET与EER,minDCF,Identification Accuracy

DET曲线尝试用对数刻度,从而看起来更接近直线。注意:必须要先寻找使。

文章图片
#深度学习#人工智能
数字信号的基本运算——线性卷积(相关)和圆周卷积(相关)

在介绍卷积和相关运算之前,需要先认识一些更加基本的运算。

文章图片
#深度学习#人工智能
CIFAR-100 top1 and top5 err statistics

datasetnetworkparamstop1 errtop5 errepoch(lr = 0.1)epoch(lr = 0.02)epoch(lr = 0.004)epoch(lr = 0.0008)total epoch

#深度学习#机器学习#神经网络
深入理解Transformer,兼谈MHSA(多头自注意力)、Cross-Attention(交叉注意力)、LayerNorm、FFN、位置编码

【代码】深入理解Transformer,兼谈MHSA(多头自注意力)、Cross-Attention(交叉注意力)、LayerNorm、FFN、位置编码。

文章图片
#transformer#深度学习#人工智能
Conda虚拟环境管理,示例:安装GPU版PyTorch、解决PowerShell启动时无法激活虚拟环境的问题、导出导入环境、安装GCC编译器

【代码】Conda虚拟环境管理,示例:安装GPU版PyTorch、解决PowerShell启动时无法激活虚拟环境的问题、导出导入环境、安装GCC编译器。

文章图片
#pytorch#python#c++
    共 24 条
  • 1
  • 2
  • 3
  • 请选择