Conformer ASR详解

Conformer: Convolution-augmented Transformer for Speech Recognition论文地址：https://arxiv.org/abs/2005.08100Conformer编码器Conformer编码器的结构如下图左侧所示，其中每个Conformer块包含四个模块：分别是前馈模块，多头自注意力模块、卷积模块和另一个前馈模块。与右侧的Transf

glow-worm

4904人浏览 · 2021-10-30 22:02:21

glow-worm · 2021-10-30 22:02:21 发布

Conformer: Convolution-augmented Transformer for Speech Recognition

论文地址：https://arxiv.org/abs/2005.08100

Conformer编码器

Conformer编码器的结构如下图左侧所示，其中每个Conformer块包含四个模块：分别是前馈模块，多头自注意力模块、卷积模块和另一个前馈模块。与右侧的Transformer编码器的结构相比，Conformer块的改变主要体现在两处：1.增加了卷积模块；2.将前馈模块分成了两半在这里插入图片描述

Multi-Headed Self-Attention Module

1.多头注意力结合了Transformer-XL中的相对位置编码
2.使用了带有dropout的pre-norm残差单元，有助于训练和正则化更深层次的模型
在这里插入图片描述

相对位置编码

参考
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
论文地址：https://arxiv.org/abs/1901.02860

在标准的Transformer中，序列的顺序信息由一组位置编码提供，表示为 $\in R^{L_{max}} \times d$ ，其中第i行 $U_i$ 对应segment内的第 i 个绝对位置， $L_{max}$ 规定了要建模的最大长度。Transformer的实际输入是词嵌入和位置编码的加和。
同一个segment内的query向量 $q_i$ 和key向量 $k_j$ 之间的注意力分数可以表示为：
$(E_{x_i} +U_i) W^T_q W_k (E_{x_j}+U_j)$
分解后：
在这里插入图片描述
而利用Transformer-XL中的相对位置编码得到的注意力分数为：

这当中作了三处调整：
1.用相对位置编码 $R_{i-j}$ 替换b项和d项中的绝对位置编码 $U_j$ ，其中 i 表示query向量的位置，j 表示key向量的位置。
2.用可训练的参数 u 和 v 替换 c 项和d项中的 $U_i W^T_q$ ，由于所有query位置的查询向量都是相同的，无论query的位置如何，注意力影响都是一致的，因此可以忽略query的位置。
3.将两个权重矩阵 $W_{k,E}$ 和 $W_{k,R}$ 分开，以分别产生基于内容的key向量和基于位置的key向量。

R采用正弦函数生成，不是通过学习得到的。好处是在预测时可以使用比训练更长距离的位置向量。相对位置编码使自注意力模块对不同的输入长度有更好的泛化，得到的编码器对语音长度的变化有更好的鲁棒性。

pre-norm

参考
Learning Deep Transformer Models for Machine Translation
论文地址：https://arxiv.org/abs/1906.01787
为了加深Transformer编码器，研究layer normalization的位置对深层Transformer的影响。在Transformer中，子层的叠加会阻碍信息在网络中的有效流动，可能导致训练失败。residual connections和layer norm用来解决这一问题。layer norm用来降低子层输出的方差，加快收敛。
残差单元可以定义为：
在这里插入图片描述
其中， $x_l$ 和 $x_{l+1}$ 表示子层的输入和输出，y_l是中间输出，f()是后处理函数。
在残差连接中引入layer norm有两种方法：
Post-Norm ： ------Transformer
Pre-Norm： --在每个子层的输入上
在基于6层编码器的系统上性能相当，但在层数更多时情况大不相同。

Convolution Module

在这里插入图片描述

Pointwise Conv & Depthwise Conv——主要目的是用来降低参数量和计算量

在这里插入图片描述
将常规卷积拆成两步：
depthwise 只改变feature map的大小，不改变通道数。
pointwise只改变通道数，不改变feature map大小。

depthwise卷积：一个卷积核只负责一个通道，一个通道只被一个卷积核卷积，特征图的数量与输入通道数相同，但是没有利用不同通道在相同空间的位置信息。
在这里插入图片描述
pointwise 卷积：卷积核的尺寸为11输入通道数，相当在深度方向上加权求和，可以指定输出通道数。

GLU 激活

参考
Language Modeling with Gated Convolutional Networks——论文地址：https://arxiv.org/abs/1612.08083v3
门控机制控制信息在网络中的流动，在LSTM中由输入门、遗忘门和输出门，它通过输入门和遗忘门来控制的CELL实现长期记忆，使得信息即使通过很多时间步也能畅通的流动，否则，信息很容易在经过较长时间步后消失。CNN不会有这种梯度消失，所以这里只设置了一个输出门。
在这里插入图片描述

在这里插入图片描述

SWISH 激活函数：

参考
SWISH: A SELF-GATED ACTIVATION FUNCTION
论文地址：https://arxiv.org/pdf/1710.05941v1.pdf
SEARCHING FOR ACTIVATION FUNCTIONS
https://arxiv.org/pdf/1710.05941.pdf

Swish：f(x) = x · sigmoid(x)
在许多数据集上的实验表明，Swish在更深的模型上往往比ReLU工作得更好。
ReLU：f(x) = max(x,0)
与ReLU相同的是，Swish是无上界、有下界的。
与ReLU不同的是，Swish是平滑的且非单调的。
在这里插入图片描述
带参数的SWISH函数：
Swish：f(x) = x · sigmoid(βx)
β=0，
β→∞, Swish变得像ReLU函数。
这表明Swish可以被视为一个平滑函数，在线性函数和ReLU函数之间进行非线性插值。将β设置为可训练参数，模型可以控制插值的程度。
在这里插入图片描述