SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks

论文名称：SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks作者：Lingxiao Yang, Ru-Yuan Zhang, Lida Li, Xiaohua XieCode：https://github.com/ZjjConan/SimAM介绍本文提出了一种简单有效的3D注意力模块，

Asthestarsfalll

2279人浏览 · 2021-08-02 16:40:58

Asthestarsfalll · 2021-08-02 16:40:58 发布

论文名称：SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks

作者：Lingxiao Yang, Ru-Yuan Zhang, Lida Li, Xiaohua Xie

Code：https://github.com/ZjjConan/SimAM

介绍

本文提出了一种简单有效的3D注意力模块，基于著名的神经科学理论，提出了一种能量函数，并且推导出其快速解析解，能够为每一个神经元分配权重。主要贡献如下：

受人脑注意机制的启发，我们提出了一个具有3D权重的注意模块，并设计了一个能量函数来计算权重；
推导了能量函数的封闭形式的解，加速了权重计算，并保持整个模块的轻量；
将该模块嵌入到现有ConvNet中在不同任务上进行了灵活性与有效性的验证。

方法

作者认为注意机制的实现应该遵循神经计算中的一些统一原则。因此，基于一些成熟的神经科学理论提出了一种新的方法。

在视觉神经学中，那些信息量（most informative）最大的神经元通常与周围神经元拥有不同的放电模式。

同时，一个活跃的神经元也可能一直周围的神经元活动，这种现象被称为”空间抑制“。

换言之，在视觉中，表现出明显空间一直效应的神经元应该被赋予更高的重要性，而找到这些神经元的最简单方式就是测量一个目标神经元与其他神经元之间的线性可分性。

能量函数

基于以上科学发现，提出了以下的能量函数（公式来源参考）：
$e_t(w_t,b_t,\mathbf{y},x_i) = (y_t-\hat{t})^2+\frac{1}{M-1}\sum_{i=1}^{M-1}(y_0-\hat{x}_i)^2.\tag{1}$
$t$ 和 $x_i$ 是输入 $X\in \mathbb{R}^{C\times H\times W}$ 中单通道上的目标神经元和其他神经元

$\hat{t}=w_tt+b_t$ 和 $\hat{x}_i=w_tx_i+b_t$ 是 $t$ 和 $x_i$ 的线性变换， $w_t$ 和 $b_t$ 分别代表线性变换的权重和偏置

$i$ 是空间维度上的索引， $M=H\times W$ 代表该个通道上神经元的个数

$(1)$ 式中的所有量都是标量，当 $y_t=\hat{t}$ 和所有 $x_i=y_o$ 时取得最小值，其中， $y_t$ 和 $y_o$ 是两个不同的值

求解 $(1)$ 式的最小值等价于求解目标神经元和其他所有神经元之间的线性可分性

简便起见，使用二值标签，即 $y_t=1\quad y_o=-1$ ，并且添加了正则项，则最终的能量函数如下：
$e_t(w_t,b_t,\mathbf{y},x_i) = \frac{1}{M-1}\sum_{i=1}^{M-1}(-1-(w_tx_i+b_t))^2+(1-(w_tt+b_t))^2+\lambda w_t^2.\tag2$

公式的来源应该是SVM，将当前神经元设置为正类，其余神经元设置为负类，来衡量他们之间的差异性。

解析解

理论上，每个通道拥有 $M$ 个能量函数，逐一求解是很大的计算负担

幸运的是，可以获得 $(2)$ 的闭式解（即解析解），如下：
$w_t=-\frac{2(t-\mu_t)}{(t-\mu_t)^2+2\sigma_t^2+2\lambda},\tag3$
$b_t=-\frac{1}{2}(t-\mu_t)w_t.\tag4$

其中 $\mu_t=\frac{1}{M-1}\sum_{i=1}^{M-1}x_i$ ， $\sigma_t^2=\frac{1}{M-1}\sum_{i=1}^{M-1}(x_i-\mu_t)^2$ ，实际上就是该通道中除去目标神经元的均值和方差

由于解析解是在单个通道上获得的，因此可以合理假设每个通道中所有像素遵循相同的分布，最小能量即为：
$e_t^*=\frac{4(\mu^2+\lambda)}{(t-\mu)^2+2\sigma^2+2\lambda}.\tag5$
能量越低，神经元t与周围神经元的区别越大，重要性越高。因此，神经元的重要性可以通过 $1/e_t^*$ 得到。

根据以往的神经学研究，哺乳动物大脑中的注意力调节通常表现为神经元反应的增益效应，因此使用放缩运算而非加法来实现加权：
$\widetilde{X}=sigmoid(\frac{1}{E})\otimes X,\tag6$
同时 $s i g m o i d$ 函数还可以限制 $E$ 中的过大值，并且不会影响每个神经元的相对重要性

Pytorch代码为：

def forward(X,lambda):
	n = X.shape[2] * X.shape[3] - 1
	d = (X - X.mean(dim=[2,3])).pow(2)
	v = d.sum(dim=[2,3])/n
	E_inv = d / (4 * (v + lambda)) +0.5
	return X * torch.sigmoid(E_inv)

实验

在各类任务上都取得了相当好的效果。

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ADS1292R 使用过程心电图高精度ADC模块

文章目录1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础https://www.ti.com.cn/cn/lit/wp/slyy192/slyy192.pdf?ts=1600659610730&ref_u

开放原子开发者工作坊

实现一个家庭安防与环境监测系统（一）

开放原子开发者工作坊

【cf】Codeforces Round #774 (Div. 2) 前4题

题目A. Square Counting 简单数学题目大意题解代码B. Quality vs Quantity 排序题目大意题解代码C. Factorials and Powers of Two 状态压缩dp+位运算题目大意题解代码D. Weight the Tree 树形dp+dfs题目大意题解代码E. Power Board 看起来像是数论？许多年没打cf了，偶尔打了一盘，恢复紫名了。A. S