毕业设计-基于深度学习的单通道语音降噪技术

毕业设计-基于深度学习的单通道语音降噪技术：语音作为一种快捷、高效的通信方式，在人人交互以及人机交互中拥有重要地位。日常生活中有大量与语音相关的应用，如手机通话，自动语音识别（Automatic Speech Recognition，ASR），智能语音助手，电子助听器等。这些应用大多需要在相对安静的环境中才能正常工作，然而在现实世界中，往往不可避免地存在各种各样的噪声干扰，如自然噪声（风声

HaiLang_IT

1640人浏览 · 2023-03-24 18:15:00

HaiLang_IT · 2023-03-24 18:15:00 发布

前言

📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

选题指导: https://blog.csdn.net/qq_37340229/article/details/128243277

大家好,这里是海浪学长毕设专题,本次分享的课题是

🎯毕业设计-基于深度学习的单通道语音降噪技术

课题背景和意义

语音作为一种快捷、高效的通信方式，在人人交互以及人机交互中拥有重要地位。日常生活中有大量与语音相关的应用，如手机通话，自动语音识别（Automatic Speech Recognition，ASR），智能语音助手，电子助听器等。这些应用大多需要在相对安静的环境中才能正常工作，然而在现实世界中，往往不可避免地存在各种各样的噪声干扰，如自然噪声（风声，雨声等），机器噪声（发动机工作声，风扇转动声等）以及人为噪声（餐厅中他人的说话声等）等等。这些噪声干扰会导致语音质量和可懂度的下降，进而影响语音应用的正常工作。以人机交互中的重要环节语音识别为例，在复杂噪声的干扰下，语音质量明显下降，语音识别准确率也随之严重降低。为了抑制噪声的干扰，提高语音应用的鲁棒性，语音降噪变得愈发重要。语音降噪是一种从带噪语音信号中恢复干净语音信号，进而提高语音信号听感质量和可懂度的技术手段。

实现技术思路

一、基于子空间投影的时域语音降噪

研究动机令𝑥, 𝑠, 𝑛 ∈ ℝ𝑇分别代表带噪语音信号，干净语音信号和加性噪声信号，其中 T 代表信号采样点数。则带噪语音信号可以由下式表示：

令𝑓𝜃(⋅)代表语音降噪模型，其中𝜃表示模型中的可学习参数，则增强后的语音信号可以由下式表示：

语音降噪的目标在于让增强语音信号与干净语音信号拥有尽可能接近的语音听感质量。

现有的基于深度学习的语音降噪方法大多采用了编码器-解码器的网络结构，如上图所示。这类方法先通过编码器将带噪语音编码得到嵌入向量，经过一些中间处理后再将嵌入向量送入解码器来预测干净语音。然而送入解码器的嵌入向量不可避免地同时包含语音信息和噪声信息，直接用它进行解码可能会影响对干净语音的预测。

基于子空间投影的时域语音降噪方法描述

SPTSNRN 的整体结构如图所示。SPTSNRN 基于经典的时域降噪模型 Wave-U-Net设计。它主要由四部分构成，分别为编码器，投影模块，语音解码器以及噪声解码器。对于输入的带噪语音 x，编码器首先将它编码得到包含高层次特征的嵌入向量 embmix，该嵌入向量同时包含了语音信息和噪声信息。

（1）投影模块

投影模块具体结构如图所示，它由一个卷积模块和两个并行的自注意力层（Self-Attention，SA）构成。其中卷积模块用于进一步提取嵌入向量的局部特征，而两个自注意力层则用于提取全局信息并将 embmix 投影得到语音嵌入向量 embs 和噪声嵌入向量 embn。下面介绍使用自注意力层实现投影的原理。

自注意力层是构建 Transformer[25]的重要部分，它与递归神经网络一样具备时序建模能力，能够提取时序信息。

自注意力层的可学习参数由 3 个矩阵构成，依次为𝑊𝑞 ∈ ℝ 𝑑𝑞×𝑑𝑥，𝑊𝑘 ∈ ℝ𝑑𝑘×𝑑𝑥和𝑊𝑣 ∈ ℝ𝑑𝑣×𝑑𝑥，其中𝑑𝑞，𝑑𝑘，𝑑𝑣分别表示查询向量，键向量和值向量的维度，𝑑 表示输入时间序列的特征维度。最后值矩阵 V 与注意力矩阵 A 相乘得到最终输出𝑋𝑜𝑢𝑡 ∈ ℝ𝑑𝑣×𝑇。自注意力层的输入输出关系如式所示。

通过简单推导不难得到 SA 的最终输出𝑋𝑜𝑢𝑡可以写成下面的形式：

可以看到输出序列𝑋𝑜𝑢𝑡的每一个时间点的输出都是矩阵𝑊𝑣与一向量的乘积。如图所示，不难证明矩阵与向量相乘的结果是矩阵列向量的线性组合，因而 𝑋𝑜𝑢𝑡的每一帧都处在𝑊𝑣的列向量所张成的子空间内。

通过对两个𝑊𝑣添加正交约束，让它们的列向量彼此正交，我们可以让两个自注意力层输出所在的子空间互相正交，从而极大程度地分离嵌入向量中的语音信息与噪声信息。为此与 Subspace[40]一样，我们在训练中额外添加了针对两个𝑊𝑣 的正交约束损失 LOC，其计算方法如式所示：

（2）编码器编码器的具体结构如图所示，它由 L 个卷积模块级联构成，每个卷积模块包含一维 CNN，批归一化层（Batch Normalization，BN），含参修正线性单元激活函数（Parametric Rectified Linear Unit，PReLU）以及下采样层（Down Sampling， DS）。

（3）解码器解码器包含了语音解码器和噪声解码器两个模块，两个解码器的具体结构完全一致。

由于在编码过程和投影过程中难免会造成信息的丢失，故本文在编码器和解码器对应卷积模块间添加了跳连。

二、基于噪声信息辅助的双阶段语音降噪

在以上基础上提出了基于噪声信息辅助的双阶段语音降噪模型 SPTSNRN-MN。该模型在 SPTSNRN 的基础上添加了融合网络（Merge Network， MN），该网络能够进一步利用 SPTSNRN 中噪声解码器预测的噪声信息来辅助和提升最终的语音降噪效果。

研究动机

利用训练好的 SPTSNRN 对 VBD 测试集中的带噪语音同时预测语音信号和噪声信号，然后比较语音解码器直接预测的语音信号和利用噪声解码器间接预测的语音信号在 PESQ 上的差异。比较结果如图所示。

下图展示了间接预测的语音和直接预测的语音的语谱图对比。其中带噪语音的噪声场景为公共广场，信噪比为 12.5dB。

基于噪声信息辅助的双阶段语音降噪方法描述

选用两种融合方案都先通过网络预测权重，然后通过该权重对直接预测的和间接预测的语音信号以加权相加的形式进行融合。该权重能反映不同时间下直接预测和间接预测语音的相对质量，当某段时间内间接预测的语音信号质量更好时，融合网络可以赋予它更大的权值，反之则赋予直接预测的语音信号更大的权重，从而使得最终得到的语音信号拥有更好的语音质量。

针对两种融合方案，设计了对应的融合网络。图展示了时域融合网络的具体结构。其中𝑠̂和𝑛̂分别表示 SPTSNRN 预测的语音信号与噪声信号，x为带噪语音信号，𝑠𝑓 𝑙 ̂ 为最终预测的语音信号。

图展示了频域融合网络的具体结构。该网络完全由 5 个二维卷积模块构成。其中前 4 个二维卷积模块由二维 CNN，BN 层以及 PReLU 激活函数构成，最后一个卷积模块将 PReLU 激活函数替换成 Sigmoid 激活函数。所有 CNN 的卷积核大小为（7，3），卷积步长为（1，1），从前至后 CNN 的输出通道数依次为 36，72，72，36，1。、