作者:張張張張
github地址:https://github.com/zhanghekai
【转载请注明出处,谢谢!】


G A T GAT GAT源代码地址:https://github.com/PetarV-/GAT
G A T GAT GAT论文地址:https://arxiv.org/pdf/1710.10903.pdf

\qquad G A T GAT GAT是在 G C N GCN GCN的基础上进行改进而得以实现的,不熟悉 G C N GCN GCN的朋友可以阅读我的另一篇文章【图结构】之图神经网络GCN详解,关于输入的特征矩阵的生成方式以及最后如何用 G A T GAT GAT G C N GCN GCN进行分类,都在这篇文章中有所讲述!



一、在GCN中引入注意力机制——GAT

G C N GCN GCN详解那篇文章最后我们提出了 G C N GCN GCN的两个缺点, G A T GAT GAT就是来解决这两个缺点的:
G C N GCN GCN缺点:

  • 这个模型对于同阶的邻域上分配给不同的邻居的权重是完全相同的(也就是 G A T GAT GAT论文里说的:无法允许为邻居中的不同节点指定不同的权重)。这一点限制了模型对于空间信息的相关性的捕捉能力,这也是在很多任务上不如 G A T GAT GAT的根本原因。
  • G C N GCN GCN结合临近节点特征的方式和图的结构依依相关,这局限了训练所得模型在其他图结构上的泛化能力。

\qquad G r a p h A t t e n t i o n N e t w o r k ( G A T ) Graph Attention Network (GAT) GraphAttentionNetwork(GAT)提出了用注意力机制对邻近节点特征加权求和。 邻近节点特征的权重完全取决于节点特征,独立于图结构。 G A T GAT GAT G C N GCN GCN的核心区别在于如何收集并累和距离为1的邻居节点的特征表示。 图注意力模型 G A T GAT GAT用注意力机制替代了 G C N GCN GCN中固定的标准化操作。本质上, G A T GAT GAT只是将原本 G C N GCN GCN的标准化函数替换为使用注意力权重的邻居节点特征聚合函数。

G A T GAT GAT优点:

  • G A T GAT GAT中,图中的每个节点可以根据邻节点的特征,为其分配不同的权值。
  • G A T GAT GAT的另一个优点在于,引入注意力机制之后,只与相邻节点有关,即共享边的节点有关,无需得到整张图的信息:(1)该图不需要是无向的(如果边缘 j → i j\to i ji不存在,我们可以简单地省略计算 α i j \alpha_{ij} αij);(2)它使我们的技术直接适用于 i n d u c t i v e    l e a r n i n g inductive\;learning inductivelearning——包括在训练期间完全看不见的图形上的评估模型的任务。

二、图注意力层Graph Attention layer

2.1 图注意力层的输入与输出

  • 图注意力层的输入是:一个节点特征向量集:
    h = { h ⃗ 1 , h ⃗ 2 , ⋯ , h ⃗ N } , h ⃗ i ∈ R F h=\{\vec{h}_1,\vec{h}_2,\cdots,\vec{h}_N\},\vec{h}_i\in \R^F h={h 1h 2h N}h iRF
    其中 N N N为节点个数, F F F为节点特征的个数。矩阵 h h h的大小是 N × F N\times F N×F,代表了所有节点的特征,而 R \R R只代表了某一个节点的特征,所以它的大小为 F × 1 F \times 1 F×1。输出同理。

  • 每一层的输出是:一个新的节点特征向量集:
    h ′ = { h ′ ⃗ 1 , h ′ ⃗ 2 , ⋯ , h ′ ⃗ N } , h ′ ⃗ i ∈ R F ′ h'=\{ \vec{h'}_1,\vec{h'}_2,\cdots,\vec{h'}_N\},\vec{h'}_i\in \R^{F'} h={h 1h 2h N}h iRF
    其中 F ′ F' F表示新的节点特征向量维度(可以不等于 F F F)。

\qquad G A T GAT GAT G C N GCN GCN同样也是一个特征提取器,针对的是 N N N个节点,按照其输入的节点特征预测输出新的节点的特征。

2.2 特征提取与注意力机制

\qquad 为了得到相应的输入与输出的转换,我们需要根据输入的特征至少进行一次线性变换得到输出的特征,所以我们需要对所有节点训练一个权重矩阵: W ∈ R F ′ × F W\in\R^{F' \times F} WRF×F,这个权重矩阵就是输入的 F F F个特征与输出的 F ′ F' F个特征之间的关系。

\qquad 针对每个节点实行 s e l f − a t t e n t i o n self-attention selfattention的注意力机制,注意力系数 ( a t t e n t i o n    c o e f f i c i e n t s ) (attention \;coefficients) (attentioncoefficients)为:
(1) e i j = a ( W h ⃗ i , W h ⃗ j ) e_{ij}=a(W\vec{h}_i,W\vec{h}_j)\tag{1} eij=a(Wh i,Wh j)(1)
注意: a a a不是一个常数或是矩阵, a ( ) a() a()是一个函数,类似于 f ( x ) f(x) f(x)那种自己定义好的函数。

  • 这个公式表示了节点 j j j对节点 i i i的重要性,而不去考虑图结构的信息。
  • 如前面介绍过的,向量 h h h就是节点的特征向量。
  • 下标 i , j i,j i,j表示第 i i i个节点和第 j j j个节点。

★什么是 s e l f − a t t e n t i o n self-attention selfattention机制?
\qquad s e l f − a t t e n t i o n self-attention selfattention其作用是能够更好地学习到全局特征之间的依赖关系, s e l f − a t t e n t i o n self-attention selfattention通过直接计算图结构中任意两个节点之间的关系,一步到位地获取图结构的全局几何特征。
\qquad s e l f − a t t e n t i o n self-attention selfattention利用了 a t t e n t i o n attention attention机制,分三个阶段进行计算:(1) 引入不同的函数和计算机制,根据 Q u e r y Query Query和某个 K e y i Key_i Keyi,计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量 C o s i n e Cosine Cosine相似性或者通过再引入额外的神经网络来求值;(2) 引入类似 s o f t m a x softmax softmax的计算方式对第一阶段的得分进行数值转换,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为 1 1 1的概率分布;另一方面也可以通过 s o f t m a x softmax softmax的内在机制更加突出重要元素的权重;(3)第二阶段的计算结果 a i a_i ai即为 v a l u e i value_i valuei对应的权重系数,然后进行加权求和即可得到 a t t e n t i o n attention attention数值。

\qquad 作者通过 m a s k e d    a t t e n t i o n masked \;attention maskedattention将这个注意力机制引入图结构中, m a s k e d    a t t e n t i o n masked \;attention maskedattention的含义是:仅将注意力分配到节点 i i i的邻居节点集 N i N_i Ni上,即 j ∈ N i j \in N_i jNi (在本文中,节点 i i i也是 N i N_i Ni的一部分)。 为了使得注意力系数更容易计算和便于比较,我们引入了 s o f t m a x softmax softmax对所有的 i i i的相邻节点 j j j进行正则化:
(2) α i j = s o f t m a x j ( e i j ) = e x p ( e i j ) ∑ k ∈ N i e x p ( e i k ) \alpha_{ij}=softmax_j(e_{ij})=\frac{exp(e_{ij})}{\sum_{k\in N_i}exp(e_{ik})}\tag{2} αij=softmaxj(eij)=kNiexp(eik)exp(eij)(2)

\qquad 实验之中,注意力机制 a a a是一个单层的前馈神经网络 a ⃗ ∈ R 2 F ′ \vec{\rm{a}}\in\R^{2F'} a R2F是神经网络中连接层与层之间的权重矩阵,在该前馈神将网络的输出层上还加入了 L e a k y R e L u LeakyReLu LeakyReLu函数,这里小于零斜率为 0.2 0.2 0.2

★什么是 L e a k y R e L u LeakyReLu LeakyReLu函数?
\qquad R e L u ReLu ReLu是将所有的负值都设为零,相反, L e a k y R e L u LeakyReLu LeakyReLu是给所有负值赋予一个非零斜率,在本论文中以数学的方式我们可以表示为:
y i = { x i i f    x i ≥ 0 0.2 i f    x i ≤ 0 y_i=\begin{cases}x_i & if\;x_i\geq0\\0.2 & if\;x_i\leq0\end{cases} yi={xi0.2ifxi0ifxi0

\qquad 综合上述公式(1)和(2),整理到一起可得到完整的注意力机制如下:
(3) α i j = e x p ( L e a k y R e L u ( a ⃗ T [ W h ⃗ i ∣ ∣ W h ⃗ j ] ) ) ∑ k ∈ N i e x p ( L e a k y R e L u ( a ⃗ T [ W h ⃗ i ∣ ∣ W h ⃗ k ] ) ) \alpha_{ij}=\frac{exp(LeakyReLu(\vec{\rm{a}}^T[W\vec{h}_i||W\vec{h}_j]))}{\sum_{k\in N_i}exp(LeakyReLu(\vec{\rm{a}}^T[W\vec{h}_i||W\vec{h}_k]))}\tag{3} αij=kNiexp(LeakyReLu(a T[Wh iWh k]))exp(LeakyReLu(a T[Wh iWh j]))(3)

  • ∣ ∣    ||\; 符号的意思是连接操作 ( c o n c a t e n a t i o n    o p e r a t i o n ) (concatenation \;operation) (concatenationoperation)
  • ⋅ T \cdot ^T T表示为转置

注意: e i j e_{ij} eij α i j \alpha_{ij} αij都叫做"注意力系数",只不过 α i j \alpha_{ij} αij是在 e i j e_{ij} eij基础上进行归一化后的。

上述过程可用下图来表示:
在这里插入图片描述

2.3 输出特征

\qquad 通过上述运算得到了正则化后的不同节点之间的注意力系数,可以用来预测每个节点的输出特征:
(4) h ′ ⃗ i = σ ( ∑ j ∈ N i α i j W h ⃗ j ) \vec{h'}_i=\sigma(\sum_{j \in N_i}\alpha_{ij}W\vec{h}_j)\tag{4} h i=σ(jNiαijWh j)(4)

  • W W W为与特征相乘的权重矩阵
  • α \alpha α为前面计算得到的注意力互相关系数
  • σ \sigma σ为非线性激活函数
  • j ∈ N i j \in N_i jNi中遍历的 j j j表示所有与 i i i相邻的节点
  • 这个公式表示就是:该节点的输出特征与和它相邻的所有节点有关,是它们的线性和的非线性激活后得到的。

2.4 multi-head attention

\qquad 为了稳定 s e l f − a t t e n t i o n self-attention selfattention的学习过程,作者发现扩展我们的机制以采用 m u l t i − h e a d    a t t e n t i o n multi-head\;attention multiheadattention是有益的。具体而言, K K K个独立注意力机制执行公式(4),然后将它们的特征连接起来。但是,如果我们对最终的网络层执行 m u l t i − h e a d    a t t e n t i o n multi-head\;attention multiheadattention,则连接操作不再合理,相反,我们采用 K K K平均来替代连接操作,并延迟应用最终的非线性函数(通常为分类问题的 s o f t m a x softmax softmax l o g i s t i c    s i g m o i d logistic \;sigmoid logisticsigmoid),得到最终的公式:
h ′ ⃗ i = σ ( 1 K ∑ k = 1 K ∑ j ∈ N i α i j k W k h ⃗ j ) \vec{h'}_i=\sigma(\frac{1}{K}\sum_{k=1}^{K}\sum_{j\in N_i}\alpha_{ij}^kW^k\vec{h}_j) h i=σ(K1k=1KjNiαijkWkh j)

  • K K K个注意力机制需要考虑, k k k表示 K K K中的第 k k k
  • k k k个注意力机制为 a k a^k ak
  • k k k个注意力机制下输入特征的线性变换权重矩阵表示为 W k W^k Wk

★什么是 m u l t i − h e a d    a t t e n t i o n multi-head\;attention multiheadattention ?
\qquad 这里面 m u l t i − h e a d    a t t e n t i o n multi-head\;attention multiheadattention其实就是多个 s e l f − a t t e n t i o n self-attention selfattention结构的结合,每个 h e a d head head学习到在不同表示空间中的特征,多个 h e a d head head学习到的 a t t e n t i o n attention attention侧重点可能略有不同,这样给了模型更大的容量。

m u l t i − h e a d    a t t e n t i o n multi-head\;attention multiheadattention图例:
在这里插入图片描述
\qquad 由节点 h ⃗ 1 \vec{h}_1 h 1在其邻域上的 m u l t i − h e a d    a t t e n t i o n multi-head\;attention multiheadattention(具有 K = 3 K = 3 K=3个头)的图示。不同的箭头样式和颜色表示独立的注意力计算,来自每个头的聚合特征被连接或平均以获得 h ′ ⃗ 1 \vec{h'}_1 h 1

三、GAT实现分类

\qquad G A T GAT GAT的分类过程与 G C N GCN GCN的分类过程十分相似,均是采用 s o f t m a x softmax softmax函数 + + +交叉熵损失函数 + + +梯度下降法来完成的,详细内容可参阅我的另一篇文章【图结构】之图神经网络GCN详解


【参考文献】
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐