基于深度学习中的语音生成---自动编码器autoencoder和可变自动编码器Variant Autoencoder——DCASE中FoleySound项目讲解

* 这个专题是我完成《智能感知与应用》这门课中，声音和自然语言处理章节的课程作业，我首先在DCASE社区了解最新的音频处理的最新技术，总共6个专题，我选了声音生成，准备复现他给的baseline,但是复现起来比较困难。* 然后就去找资料，找到了一个youtube上一个专门讲声音的up主，《Valerio Velardo - The Sound of AI》，学习了他的《Generating Sou

客院载论

356人浏览 · 2023-05-17 15:08:38

客院载论 · 2023-05-17 15:08:38 发布

文章目录

概述

这个专题是我完成《智能感知与应用》这门课中，声音和自然语言处理章节的课程作业，我首先在DCASE社区了解最新的音频处理的最新技术，总共6个专题，我选了声音生成，准备复现他给的baseline,但是复现起来比较困难。
然后就去找资料，找到了一个youtube上一个专门讲声音的up主，《Valerio Velardo - The Sound of AI》，学习了他的《Generating Sound with Neural Networks》，自己复现并且在本地跑了一下，将整个视频中将的内容和编码过程整理成博客。这个博主在上课的时候，首先首先介绍了autoencoder和variant autoencoder 是如何应用在mnist手写数据集的，然后在把他改成应用于声音生成的模块。这样不便于我上去做课程报告，所以我将最基础的autocoder也应用于声音生成，然后在做了比对。这样做便于作讲解，做ppt,展现我的工作量，最后我将我做的ppt,实现的代码放在github上，将做报告的视频放在B站上。
省流，这个系列讲了啥
1、介绍了一下DCASE网站上各个专题，每一个专题是干什么的
2、介绍了使用编码器和变分编码器用于声音生成的基础知识和实现代码，以及讲解
3、翻译并讲解DCASE中FoleySound项目中的Baseline项目

目录索引

按照顺序往下看，如果想图省事，直接跳转到github和B站，下载讲稿和ppt,以及代码，可以直接交作业。

DECASE网站介绍——声音合成——Foley Sound——DECASE项目——多模态智能感知与应用——听觉和文字篇项目
使用自动编码器和变分编码器生成声音的系列博客
- 使用神经网络进行声音生成需要的基础知识——声音生成相关的基础知识
- 实现自动编码器并实现mnist数据集的生成——Autoencoder自动编码生成代码编写和原理讲解
- 将自动编码器改成变分编码器 并实现mnist数据集的生成——将Autoencoder修改成Variant Autoencoder在mnist训练
- 使用vae实现音频生成，包括预处理和训练模型——音频预处理模块的实现和讲解
- 使用训练好的vae模型进行声音生成——VariantAutoencoder（VAE）中使用生成好的模型进行声音生成
DCASE中FoleySound generation中Baseline论文翻译和代码理解
- 论文翻译，《CONDITIONAL SOUND GENERATION USING NEURAL DISCRETE TIME-FREQUENCY REPRESENTATION LEARNING》声音合成——Foley Sound——DECASE项目——多模态智能感知与应用——论文翻译
- 项目复现，使用不同的方法——声音合成——Foley Sound——DECASE项目——多模态智能感知与应用——项目复现

兴智开发者社区

更多推荐

深度学习中分类和回归常见损失函数归纳小结

兴智开发者社区

最全攻略：利用LightSeq加速你的深度学习模型

前言LightSeq是字节跳动火山翻译团队开源的一款Transformer系列模型加速引擎，分为训练和推理两个部分。其中推理加速引擎早在2019年12月就已经开源，而训练加速引擎也在2021年6月开源。项目地址：GitHub - bytedance/lightseq: LightSeq: A High Performance Library for Sequence Processing and