文章目录

概述

  • 这个专题是我完成《智能感知与应用》这门课中,声音和自然语言处理章节的课程作业,我首先在DCASE社区了解最新的音频处理的最新技术,总共6个专题,我选了声音生成,准备复现他给的baseline,但是复现起来比较困难。
  • 然后就去找资料,找到了一个youtube上一个专门讲声音的up主,《Valerio Velardo - The Sound of AI》,学习了他的《Generating Sound with Neural Networks》,自己复现并且在本地跑了一下,将整个视频中将的内容和编码过程整理成博客。这个博主在上课的时候,首先首先介绍了autoencoder和variant autoencoder 是如何应用在mnist手写数据集的,然后在把他改成应用于声音生成的模块。这样不便于我上去做课程报告,所以我将最基础的autocoder也应用于声音生成,然后在做了比对。这样做便于作讲解,做ppt,展现我的工作量,最后我将我做的ppt,实现的代码放在github上,将做报告的视频放在B站上。
    省流,这个系列讲了啥
  • 1、介绍了一下DCASE网站上各个专题,每一个专题是干什么的
  • 2、介绍了使用编码器和变分编码器用于声音生成的基础知识和实现代码,以及讲解
  • 3、翻译并讲解DCASE中FoleySound项目中的Baseline项目

目录索引

按照顺序往下看,如果想图省事,直接跳转到github和B站,下载讲稿和ppt,以及代码,可以直接交作业。

Logo

更多推荐