logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度数字语音处理

深度数字语音处理引言|有用的工具|知识体系|数学|传统特征   引言有用的工具语音数据集|奇怪的网站|开发环境|第三方库语音数据集数据集描述ESC-50 dataset该数据集由2000条语音组成,每条语音5秒,共分为50个语义类别(每个语义类别40条)奇怪的网站shields.io : 一个用来生成各种...

#深度学习#python#机器学习 +1
【笔记】Polygon mesh processing 读书笔记(1)

参考书籍:Polygon mesh processing,2010大约分8篇,这是第一篇0. 前言3D 获取技术计算机断层扫描(computer tomography)核磁共振成像(MR,magnetic resonance imaging)3D 激光扫描 (3D laser scanning)超声 (ultrasound)雷达 (radar)显微成像(microscopy)Botsch的几何处理

#算法#拓扑学#图形渲染 +1
基于深度学习的语音识别技术综述(1)

Deep learning for automatic speech recognition survey[1]这篇综述质量尚可(废话,TIST的文章能不好,你有本事发一个)。TIST是什么?PIA打飞,百度去。通讯作者是Schuller,被引次数超过3万的大佬。听大佬的,少走弯路(Doge脸)。那这篇文章的关注点其实很聚焦:鲁棒的语音识别,也就是对有噪声语音的识别。所关注的技术是当红炸子鸡dee

#深度学习#自然语言处理#语音识别
ESC-50数据集的分析(1)

单个音频波形图和对应声谱图的可视化|特征可视化原始资料来自原作者的jupyter notebook[jupyter]这里的一些可视化工具,可能可以用来新的数据集分析,以及算法性能比较。本人誊写的代码在这里[source]单个音频波形图和对应声谱图的可视化特征可视化这里是用来分析所使用的音频特征的区分度(有效性)。可视化的方法有很多,但是背后其实是降维。以常用的音频特征MFCC为例,首先看一下在单个

#机器学习#语音识别
【笔记】Libigl从入门到放弃

主要内容Libigl基本知识离散几何参量与算子Libigl基本知识Libigl设计原则没有复杂的数据类型。只使用矩阵和向量;尽可能减少对外部库的依赖只有头文件(也可以做一个静态编译库)函数封装性下载Libiglgit clone https://github.com/libigl/libigl.gitLigigl核心功能只依赖C++标准库和Eigen但是编译起来还是挺费劲的,哈!Mesh表示Lib

#几何学#图形渲染#拓扑学
基于深度学习的语音识别技术综述(2)

书接上文,上一回说到这个front-end技术,这里就继续说back-end技术。Back-end techniques现在看看后端技术。这块对应语音处理的第二步,就是通过比较输入语音(语音特征)与预设的语音模型,来完成某项任务。在综述里,后端技术是指,输入的就是未经处理的带噪信号,直接通过神经网络来完成语音任务。和使用前端技术的方法相比,网络结构,甚至包括语音模型(acoustic model)

ECS-50语音识别数据集baseline模型

"Envorinmental Sound Classification using Deep Learning"的复现报告说明|实验结果|讨论|下一步工作说明复现的工作是github上audio-classification。因为这个project的源码比较清楚,所以复现难度几乎为0. 所做的贡献:改写了数据集读取部分,因为原始代码是为esc-10工作的,而esc现在只有esc-50数据...

#机器学习#深度学习#人工智能 +1
到底了