AC-FPN解读 --- Attention-guided Context Feature Pyramid Network for Object Detection

论文：https://arxiv.org/pdf/2005.11475.pdf代码：https://github.com/Caojunxu/AC-FPN摘要对于目标检测，如何解决高分辨率输入上的特征图分辨率与感受野之间的矛盾要求仍然是一个悬而未决的问题。在本文中，为了解决这个问题，我们建立了一种新颖的体系结构，称为注意力导向的上下文特征金字塔网络（AC-FPN），该体系结构通过集成注意力导向的多路

文章共2,396字 · 阅读需要大约8分钟

一键AI生成摘要，助你高效阅读

问答

梦坠凡尘

8413人浏览 · 2020-06-10 16:10:08

梦坠凡尘 · 2020-06-10 16:10:08 发布

论文：https://arxiv.org/pdf/2005.11475.pdf
代码：https://github.com/Caojunxu/AC-FPN

摘要

对于目标检测，如何解决高分辨率输入上的特征图分辨率与感受野之间的矛盾要求仍然是一个悬而未决的问题。在本文中，为了解决这个问题，我们建立了一种新颖的体系结构，称为注意力导向的上下文特征金字塔网络（AC-FPN），该体系结构通过集成注意力导向的多路径功能来利用来自各个大型感受野的判别信息。该模型包含两个模块。第一个是上下文提取模块（CEM），它从多个接受域中探索大量上下文信息。由于冗余的上下文关系可能会误导定位和识别，因此我们还设计了第二个模块，称为注意力引导模块（AM），该模块可以通过使用注意力机制来自适应捕获对象的显着依赖性。 AM由两个子模块组成，即上下文注意模块（CxAM）和内容注意模块（CnAM），它们专注于捕获区分语义和精确定位。最重要的是，我们的AC-FPN可以轻松插入现有的基于FPN的模型中。在对象检测和实例分割方面的大量实验表明，带有我们提出的CEM和AM的现有模型大大超过了没有它们的同类模型，并且我们的模型成功获得了最新的结果。

简介

如今的目标检测器（Faster R-CNN，RetinaNe）为了获取更好的性能，都采用高分辨率图像（比如800 * 800 ）作为输入，因为高分辨率可以获得更详细的信息。但是，高分辨率的输入需要更大的感受野才能获得更好的语义特征。
直观来说，可以通过增加卷积层和下采样层来堆积网络深度，获得更好的语义特征，但是，这样会增加网络参数，增加内存成本，优化变得困难，也可能造成过拟合。另一方面，下采样层数量的增加导致特征图尺寸的减小

所以，如果保证高分辨率输入的同时还能获得大的感受野是很困难也很关键的。（又想感高分辨率，又想大感受野，，，，）

FPN通过引入自上而下的路径，将低分辨率大感受野特征（语义信息）与高分辨率小感受野特征（细节信息）相结合，以检测不同尺度的物体，减轻了上述之间的矛盾要求。但是，利用FPN依然没有获得很大的感受野（比输出图像尺寸小得多）。
另一方面，FPN的方法无法充分利用不同大小的感受野。具体而言，自下而上的路径仅堆叠各层以扩大感受野，而不会促进信息传播，并且对应于不同接收域的特征图只是通过在自上而下的路径中逐元素添加而合并。
因此，FPN由不同感受野捕获的语义信息不能很好地彼此通信，从而导致性能受限

综上，当前基于FPN的方法存在两个主要问题：
1）高分辨率输入上的特征图分辨率与接收场之间的矛盾要求
2）多尺寸接收场之间缺乏有效的沟通。

为了解决第一个问题，设计了一个名为CEM的模块，以利用来自多个大型上下文的特征；
在这里插入图片描述
图1.（a）检测到的物体。（b）相同模型在不同尺寸图像上的接受场。（c）从各个接受领域获得的上下文信息。（d）确定的尺度关系。虚线表示对图像的依赖性，线宽表示相关度

为了解决第二个问题，在CEM中引入了具有不同接收场的层之间的密集连接。

CEM的功能包含丰富的上下文信息并在很大程度上有助于检测不同比例的对象，但它有些杂乱，可能会使定位和识别任务感到困惑。因此，如图1（d）所示，为了减少对冗余上下文的误导并进一步增强特征的判别能力，设计了另一个名为“注意力引导模块”（AM）的模块，该模块引入了一种自我注意机制来捕获有效的上下文相关性。具体来说，它由两部分组成：
1）上下文注意模块（CxAM），旨在捕获特征图的任意两个位置之间的语义关系；
2）内容注意模块（CnAM），致力于发现空间依赖性。

AC-FPN即是有CEM和AM两个模块组成，即AC-FPN = CEM + AM(CxAM + CnAM)，可以方便的插入到现有的基于FPN的方法中。

AC-FPN

AC-FPN和普通FPN的架构如下图所示：
在这里插入图片描述
AC-FPN模型具有两个新颖的组件：
1）上下文提取模块（CEM），利用来自各种大小的感受野的丰富上下文信息；
2）注意力导向模块（AM），可增强显着上下文依存关系

A. CEM模块

在这里插入图片描述
F5特征作为CEM的输入，然后分两个路径：
1）使用密集连接的方式对F5特征采用3,6,12,18,24的空洞参数的空洞卷积进行不同感受野的特征图提取，并对每一个连接引入可变形卷积，确保CEM可以从给定数据中学习变换不变特征。
2）为了保持初始输入的粗粒度信息，对F5特征进行upsampling。
最后两个路径的输出concate，并将它们馈送到1×1卷积层，以融合粗粒度和细粒度特征。
CEM模块的网络配置如下：
在这里插入图片描述

B. AM模块

由两部分组成：1）上下文注意模块（CxAM）和2）内容注意模块（CnAM）。

1) Context Attention Modules

在这里插入图片描述
F是CEM的输出特征，由CEM产生并包含多尺度感受野信息，放入CxAM模块。基于这些信息，CxAM自适应地关注相关的子区域之间的关系。因此，输出CxAM的功能将具有清晰的语义并包含周围对象内的上下文相关性。

2) Content Attention Module

在这里插入图片描述
由于CEM使用了可变形卷积，导致给定图像的几何特性已被彻底破坏，从而导致位置偏移。为此，我们设计了一个新的注意力模块，称为内容注意力模块（CnAM），以维护每个对象的精确位置信息。

CnAM与CxAM的区别就是CnAM利用了F5的feature map作为一个输入弥补被破坏的定位信息。

实验结果

在这里插入图片描述
感想：FPN已经做烂了还有这方面的研究。。。不过这个AC-FPN为了涨一两个点添加了CEM和AM模块，增大了计算量，而且实验还有two-stage检测网络的对比实验，并没有一阶段的对比实验，会不会one-stage检测网络加入AC-FPN后速度优势就不明显了？感觉不太值呢？。。