深度学习中的注意力机制

深度学习中的注意力机制深度学习中的注意力机制前言Sequence to SequenceSequence to Sequence 的各种形式Attention MechanismAttention 于机器翻译Self-Attention文字识别中的 Attention推荐系统中的 AttentionAttention is all you needAttenti...

蕉叉熵

35163人浏览 · 2018-06-21 17:07:17

蕉叉熵 · 2018-06-21 17:07:17 发布

深度学习中的注意力机制

文章目录

深度学习中的注意力机制
@[toc]
前言
Sequence to Sequence
Sequence to Sequence 的各种形式

Attention Mechanism
Attention 于机器翻译
Self-Attention

文字识别中的 Attention
推荐系统中的 Attention
Attention is all you need
Attention 的用途与缺陷
最后一点话
参考文献

前言

注意力机制（Attention Mechanism）并非是在最近才被提出的，但它确实在最近几年才变得火热起来，尤其是谷歌2017年发表的那篇《Attention is all you need》，为人们提供了一种用Attention结构完全替代传统CNN和RNN结构的新思路，在那之后似乎有着层出不穷的Attention结构应用。Attention，顾名思义，是由人类观察环境的习惯规律总结而来的，人类在观察环境时，大脑往往只关注某几个特别重要的局部，获取需要的信息，构建出关于环境的某种描述，而Attention Mechanism正是如此，去学习不同局部的重要性，再结合起来。
听起来简单，实现起来其实也简单，我认为对于Attention可以有三种理解。

首先，从数学公式上和代码实现上Attention可以理解为加权求和。
其次，从形式上Attention可以理解为键值查询。
最后，从物理意义上Attention可以理解为相似性度量。

Sequence to Sequence

Attention Mechanism的大量使用源于机器翻译，机器翻译本质上是解决一个Sequence-to-Sequence问题，所以这里从Sequence-to-Sequence讲起，将要说明为什么需要Attention，哪里使用Attention，以及如何使用Attention。

Sequence to Sequence 的各种形式

如上图所示，Sequence-to-Sequence一般有5种形式，区别无非在于输入和输出序列的长度，以及是否同步产出，具体到每一个基本的模块，又能用不同的网络结构实现，包括CNN、RNN，但是万变不离其宗，即它们的实现基本上离不开一个固定的结构：Encoder-Decoder结构。
Encoder-Decoder结构作为Sequence-to-Sequence任务的最佳拍档，常见于各种深度学习任务，从简单的时序预测分类，到GAN里都有它的影子。之所以强调这个结构，就是因为Attention解决了它的“分心问题”。下图给出了一个通用的Encoder-Decoder结构，它可能会给你某种强烈的既视感。Encoder负责从输入序列 $X$ 中学习某种表达 $C$ ，然后Decoder参考该表达 $C$ 生成每一个输出 $Y_i$ 。

Encoder-Decoder这种原始的做法是不太合理的，因为在生成每一个 $Y_i$ 时，Decoder参照的是同一个表征 $C$ ，它没有抓住重点。这有点像老师让一个小学生写作文，结果他写了一篇流水账一样。在机器翻译中，输出序列的每一个局部，往往只与输入序列的某个或几个局部有关。这里举一个例子，英译中任务：

"Billy eats a banana."

显然答案是：

“比利吃香蕉。”

在Sequence-to-Sequence里我们要解决的是这样一个问题：

（Billy, eats, a, banana）→ （比利, 吃, 香蕉）

按照Encoder-Decoder的原始做法，我们为三个中文单词分别计算 $C$ ：

$C_{比利}=h(Billy)+h(eats)+h(a)+h(banana)\\ C_{吃}=h(Billy)+h(eats)+h(a)+h(banana)\\ C_{香蕉}=h(Billy)+h(eats)+h(a)+h(banana)$

这并不合理，为什么翻译输出“比利”这个词要关注整个原句子呢？只关注或者主要关注“Billy”这个词不是更好吗？同理，输出“吃”这个词时应该更多地关注“eat”，所以下面这种计算 $C$ 的方式要更加合理一些。

$C_{比利}=0.6\cdot h(Billy)+0.2\cdot h(eats)+0.1\cdot h(an)+0.1\cdot h(banana)\\ C_{吃}=0.2\cdot h(Billy)+0.6\cdot h(eats)+0.1\cdot h(an)+0.1\cdot h(banana)\\ C_{香蕉}=0.1\cdot h(Billy)+0.1\cdot h(eats)+0.2\cdot h(an)+0.6\cdot h(banana)$

下图是一个简单的Encoder-Decoder，它的Encoder和Decoder都是RNN结构，输入序列表征 $C$ 有多种计算方法，包括取最后一个时刻的Encoder隐层输出、取所有时刻Encoder隐层输出的均值或加权平均、取最大值等等。它实现了对不同的局部采取不同的权重，然而它对于任意输出都采用同一套权重，本质上没有做出任何改进。

总结一下，我们的要求有两个：

对输入序列的不同局部，赋予不同的重要性（权重）
对于不同的输出序列局部，给输入局部不一样赋权规划或方案

Attention Mechanism

有了上面的分析以及需求，就能自然而然地引出注意力机制（Attention Mechanism）——它一定程度上解决了上述问题。对于上面给出的疑问（那些权重应该怎么给），Attention给出的答案是，让输出序列决定。如下图所示，这是文献中的结构，我简化了画出来。
假设当前Docoder要输出的是 $Y_t$ ，已知Decoder上一时刻的隐层输出 $S_{t-1}$ ，用它与Encoder的各时刻隐层输出 $h_j$ 做某种操作 $f_{att}$ ，计算出来的相应用 softmax 转化为概率，就是我们所需的权重 $a$ ，对输入加权求和，计算出输入序列的表达 $C$ ，作为Decoder当前的部分输入，从而生成 $Y_t$ 。这就是Attention的工作机制。

可以说Attention的核心就是 $C$ 的计算，不同的Attention变体主要体现在 $f_{att}$ 上，常见的计算方法有相乘（dot）与拼接（concat），此外，参与计算的 $s$ 和 $h$ 也可以做文章，搞出不同的花样，你甚至可以发现，即使跳出Encoder-Decoder这个框架，Attention也可以单独存在，因为他的本质就是“加权求和”。

还可以从另一个角度看Attention，那就是键值查询。键值查询应该有三个基本元素：索引（Query），键（Key）和值（Value），你可以理解为这是一个查字典的过程，Key-Value对构成一个字典，用户给一个Query，系统找到与之相同的Key，返回对应的Value。那么问题来了，字典里没有与Query相同的Key怎么办？答案是分别计算Query和每一个已有的Key的相似度 $w$ ，作为权重分配到所有的Value上，并返回它们的加权求和。对应到上面机器翻译的例子，输出序列的局部信息是Query，输入序列的局部信息是Key， $w$ 是二者的相似度，而Value设为1即可。从上面的分析看出，Attention也可以理解为某种相似性度量。

Attention 于机器翻译

"Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate. 2015."

下图即文献给出的法译英任务的Attention概率图，这是两个句子，横轴表示英语，纵轴表示法语，矩阵上的像素值表示概率 $a$ （或称重要性、权重、对齐概率等等），颜色越亮表示概率越大。可以明显地看出，由于英语和法语的语法结构不一样，注意力是有所偏移的。

"Wu Y, et al. Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. 2016."

下图是谷歌在2017年发布的线上机器翻译框架，这是一个Encoder-Decoder结构，两者都是多层的LSTM或Bi-LSTM堆叠而成，在中间加入了Attention，看上去比较复杂，但实际上就是上文所述的Attention的使用方法。文章表示，引入Attention之后，中译英任务的相对错误率下降了60%，英译西（西班牙语）错误率甚至下降了83%，这表明Attention确实是有效的。

Self-Attention

有一种特殊的Attention，叫做Self-Attention（自注意力机制）。它是Attention的特例，在Encoder-Decoder中，输入和输出序列是同一个序列时，称为Self-Attention。普通的Attention，在机器翻译中的物理意义是目标语单词和源语单词之间的一种单词对齐机制，而Self-Attention学习的是句子内部的联系（语法结构等），例如下图中的动词“making”与下文的“more difficult”产生了较大联系。
引入Self-Attention的好处在于可以在 $O (1)$ 的代价联系序列中两个长期依赖的特征，对于RNN结构可能需要累积更多的时间步骤才能反应过来，因此Self-Attention能够提升网络的可并行性。

文字识别中的 Attention

"Zbigniew Wojna, et al, Attention-based Extraction of Structured Information from Street View Imagery. 2017."

Attention在场景文字识别中有所应用，如上图所示，该识别框架是一个Encoder-Decoder结构，底层由CNN结构提取原始图像及其Augmentation的feature map，即 $f_{i,j,c}$ ），此处的 $i, j$ 表示图像中的坐标， $c$ 表示通道，并由当前时刻的对齐概率向量 $a_{t,i,j}$ 加权求和，得到上下文变量 $u_{t,c}$ 。
$a_{t,i,j}$ 可以理解为当前时刻对输入图像的每一个局部的关注程度，从图像处理的角度也可以理解为一个mask，它是由Decoder网络前一时刻的隐层输出与 $f$ 经过某种操作后产生的， $a_{t,i,j}$ 与 $f$ 加权得到的 $u$ 可以理解为网络对输入图像选择性观察得到的结果。 $u$ 既作为RNN的输入，也参与生成RNN的预测 $c$ 。
这么说可能有些难懂，看公式就好了。

$a_{t,i,j}=V_a^T tanh(W_s s_t + W_f f_{i,j,\cdot})\\ a_t=softmax_{i,j}(a_{t,i,j})$
$u_{t,c}=\sum_i \sum_j a_{t,i,j}f_{i,j,c}$
$x_t=W_c c_{t-1}+W_{u_1}u_{t-1}\\ (o_t, s_t)=RNN(x_t,s_{t-1})\\ \hat{o_t}=softmax(W_o o_t+W_{u_2}u_t)$
$c_t=arg \max_c \hat{o_t}(c)$

此外，文章指出计算 $a_{t,i,j}$ 时对位置不敏感，需要引入位置编码，于是分别引入了两个轴的编码 $e_i$ 和 $e_j$ ，详情请参考论文。作者表示引入了Attention之后在FSNS数据库（French Street Name Signs）上的正确率达到了84.2%，之前最好的只有72.46%（2016年）。此外，在将 $a_{t,i,j}$ 可视化之后，可以明显地看出在生成输出序列中不同的字母时，网络关注着输入图像的不同部位。

$a_{t,i,j}=V_a^T tanh(W_s s_t + W_{f_1} f_{i,j,\cdot} + W_{f_2}e_i + W_{f_3}e_j)$

Attention is all you need

"Ashish Vaswani, et al. Attention is all you need. NIPS 2017."

Attention is all you need. 这句话听上去是不是特别霸气？没错，它是由 Google Brain 提出的“大招”，最重大的贡献在于提出一个由纯粹的Attention+MLP结构组成的网络，完全抛弃了CNN和RNN结构，用于机器翻译任务。该结构被称为 transformer （变形金刚？），仍然是一个 Encoder-Decoder 结构，Encoder与Decoder都由多个基本模块堆叠而成。Encoder的基本模块有两个子层：一个多抽头自注意力模块（Multi-head Self-Attention）和一个前向神经网络（FN），Decoder的基本模块有三个子层：一个多抽头自注意力模块、一个多抽头注意力模块（非Self）和一个前向神经网络。
从功能上讲，我认为Encoder的Self-Attention是用来提取输入序列（在翻译问题中是源语种句子）中的长短期依赖的，然后输入到FN提取更高层次的响应，同时Decoder的Self-Attention提取目标语种句子中的长短期依赖，作为Query与Encoder提供Key和Value共同输入另一个Attention模块进行对齐，再进入Decoder的FN并产生最终的概率输出。整个流程从功能上完整地复现了之前的基于RNN的Encoder-Decoder经典结构，而且可并行性很高，没有RNN中的时间依赖。

所谓多抽头Attention，实际上是由多个普通的Attention拼起来的。基本的Attention形式即 Scaled Dot-Product，类似于余弦相似度，作者认为将输入的Q、K和V分别进行多次（ $h$ 次）的线性变换然后拼起来能获得更好的效果，于是产生了这种新颖的Attention结构。Attention可变的地方还很多，预计今后（可能已经）还会出现更多灵活的Attention变体。

Attention 的用途与缺陷

Attention的用武之地，我感觉是几乎万能的。

多任务：分类、预测、强化学习、聚类…
多领域：机器翻译、推荐系统、图像处理、语音识别…
多结构：几乎任何包含“求和”或“局部贡献总体”的结构都可以用

Attention的局限性和缺陷：

引入新参数来弥补某方面的拟合能力，可能比不上原有的方法，例如AFM比不上FFM
引入新参数，可能造成过拟合
引入新参数，带来计算复杂度的增加

最后一点话

Attention在某些论文中说的玄之又玄，其实他解决的问题正是加权求和中权重的合理性配置，之前不乏有相似的想法，只不过做法不同罢了。Attention之所以这么火，我认为一方面跟Google的应用离不开，另一方面也因为它实在太万能了。最近一段时间看了不少有关Attention的博客和文献资料，非常有幸能学到这么有趣的东西，由于毕设应该也会用到，所以我以后也会继续关注Attention的。