DEDSEC_Roger 个人主页

@m0_46324847

DEDSEC_Roger

2023-03-23 16:26:07 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

python setup.py bdist_wheel生成wheel文件，示例：安装webrtcvad

webrtcvad因此需要利用setup.py进行安装本文还提供了Python3.7下，webrtcvad的最新版本（2.0.11.dev0，最后一次更新是2021年2月）的win_amd64和linux_armv7l架构wheel文件的下载链接链接：https://pan.xunlei.com/s/VNNarY2ackt_NZSmMRcOja8eA1 # 提取码：wj6g。

#python #开发语言 #webrtc +1

解决：VSCode 转到定义 (Go to Definition) 失效，代码高亮失效，自动补全失效，代码格式化失效

#vscode #ide #编辑器

深入理解MFCC（梅尔频率倒谱系数）

取得13个系数后，还会在时序上，对13个系数求一阶差分和二阶差分，二阶差分等价于对一阶差分求一阶差分。表示第n帧的13个系数，将一阶差分和二阶差分与原函数值拼接起来，得到39个系数。通常选取前12个系数，再拼接一个当前frame的能量，共13个。MFCC的输出可以表示为一个二维数组，shape为。越靠前的系数，包含越多的基频和共振峰的信息。，由于是二维数组，所以可以用热力图可视化。

#python #算法 #语音识别

说话人识别中的数据预处理和数据增强

解决方案是：利用源领域的语音和文本数据，合成目标领域的语音数据。合成的数据并不是真正的目标领域数据，而是一种近似（Proxy）数据。上述的时频域增强和时域增强，提高了录音设备和声学环境的多样性。那么对于说话人和文本的多样性，就需要用到语音合成增强方法。语音合成增强的核心在于，利用多说话人语音合成模型，输入说话人嵌入码和文本内容，就能合成对应的语音。关于多说话人语音合成模型，可参考。

#人工智能 #语音识别

说话人识别中的数据需求

机器学习领域名言“Garbage In, Garbage Out!”不论神经网络多么先进，如果输入是垃圾，那么输出也一定是垃圾在说话人识别领域，所需的最小数据单元，包括：一段只包含单一说话人语音的音频，被称为Utterance（话语）该段音频的说话人标签，能够唯一地在整个数据集中标识该说话人怎么样的数据不是Garbage呢？或者说，如何评价一个数据集的质量呢？有以下这些指标：说话人的数量每个说话人

#人工智能 #python #语音识别

ROC与AUC，DET与EER，minDCF，Identification Accuracy

DET曲线尝试用对数刻度，从而看起来更接近直线。注意：必须要先寻找使。