Chaoxu Guo1, Bin Fan1, Qian Zhang2, Shiming Xiang1, and Chunhong Pan1
1NLPR,CASIA
2Horizon Robotics
1{chaoxu.guo, bfan, smxiang, chpan}@nlpr.ia.ac.cn
2qian01.zhang@horizon.ai

本文工作是基于Faster R-CNN 的改进,主要贡献就是改进FPN,提出了AugFPN多尺度特征学习模块

Abstract

目前最先进的检测器通常利用特征金字塔来检测不同尺度的目标。其中,FPN是多尺度特征求和构建特征金字塔的代表性作品之一。然而,其背后的设计缺陷阻碍了多尺度特征的充分利用。本文首先分析了FPN中特征金字塔的设计缺陷,然后提出了一种新的特征金字塔结构AugFPN(AugFPN)。具体来说,AugFPN由三个部分组成一致性监控剩余特征增强软RoI选择。AugFPN通过一致性监督,缩小了特征融合前不同尺度特征之间的语义差距在特征融合中,通过残差特征增强提取比率不变的上下文信息,以减少特征映射在最高金字塔层次的信息丢失。最后,采用软RoI选择,在特征融合后自适应地学习更好的RoI特征。在Faster R-CNN中,用AugFPN代替FPN,分别以ResNet50和MobileNet-v2作为骨干网时,模型的平均精度分别提高了2.3和1.6个点。此外,当使用ResNet50作为主干时,AugFPN将RetinaNet提高了1.6个AP,FCOS提高了0.9个AP。将提供代码。

                               

图1。特征金字塔网络的三个设计缺陷:1)特征求和前不同层次特征之间的语义差异;2)最高金字塔层次特征的信息丢失;3)启发式RoI分配。 

1. Introduction

随着深卷积网络(ConvNets)的发展,图像目标检测取得了显著的进展。已经提出了一些探测器[10、33、9、25、30、12、21、22],以稳步推进最先进的技术。在这些检测器中,FPN[21]是一个简单有效的两级对象检测框架。具体地说,FPN是在ConvNet的固有特征层次上,通过将语义强的特征从高层传播到低层,建立一个特征金字塔。

通过改进语义强的多尺度特征,大大提高了目标检测的性能。然而,FPN中的特征金字塔中存在一些设计缺陷,如图1所示。基本上,FPN中的特征金字塔可以分为三个阶段:(1)特征融合之前,(2)自顶向下的特征融合,以及(3)特征融合之后。我们发现每个阶段都有一个内在缺陷,如下所述:

不同层次特征之间的语义差异。在进行特征融合之前,不同层次的特征独立地经过1×1卷积层以减少特征通道,其中不考虑这些特征之间的巨大语义间隙。由于语义信息不一致,直接融合这些特征会降低多尺度特征表示的能力。

最高层次特征图的信息丢失。在特征融合中,特征以自顶向下的方式传播,低层特征可以利用高层特征的较强语义信息进行改进。然而,最高金字塔级别的特征却由于信道减少而丢失信息。通过结合全局池提取的全局上下文特征[29],可以减轻信息丢失。但是,由于一幅图像中可能出现多个目标,这种将特征映射融合为单一矢量的策略可能会丢失空间关系和细节。

RoIs的启发式分配策略。在特征融合后,基于一个特征层次上的特征网格对每个目标方案进行细化,并根据方案的规模进行启发式选择。然而,被忽略的其他层次的特征可能有利于对象分类或回归。考虑到这个问题,PANet[24]汇集了所有金字塔级别的roi特性,并在将其与独立的完全连接层相适应后,将其与max操作相融合。尽管如此,max-fusion会忽略响应较小的特性,这些特性可能也有帮助,但仍然无法充分利用其他级别的特性。同时,额外的全连通层显著增加了模型参数。

本文提出了一种简单而有效的特征金字塔AugFPN,它集成了三个不同的组件来分别处理上述问题。首先,提出一致性监督机制,通过在这些特征映射上实施相同的监督信号,使横向连接后的特征映射包含相似的语义信息。其次,利用比率不变自适应池提取不同的上下文信息,以残差的方式减少特征金字塔中最高层次特征的信息丢失。我们将此过程命名为剩余特征增强。第三,引入软RoI选择,更好地利用不同金字塔层次的RoI特征,为后续的位置细化和分类提供更好的RoI特征。

在没有钟声和哨声的情况下,当使用ResNet50和ResNet101作为主干时,基于AugFPN的Faster R-CNN的平均精度(AP)分别比基于FPN的快2.3和1.7。此外,当骨干网改为MobileNet-V2时,AugFPN的总体性能提高了1.6ap,MobileNet-V2是一个轻量级的高效网络。Augfpn 也可以扩展到一级探测器,只需稍作修改。用AugFPN代替FPN,可使RetinaNet和FCOS预期分别提高1.6和0.9倍,从而验证了AugFPN的通用性。

我们的贡献总结如下:

•我们揭示了FPN三个不同阶段的问题,这些问题阻碍了多尺度特征的充分利用。

•提出了一种新的特征金字塔网络AugFPN,分别用一致性监督、剩余特征增强和软RoI选择来解决这些问题。

•我们评估了在MS COCO上配备各种探测器和主干的AugFPN,与基于FPN的探测器相比,它始终带来重大改进。

2. Related Work

深目标探测器。现代的目标检测方法几乎遵循两种模式,两阶段和一阶段。作为两阶段检测方法[10,9,33,4,21,1,35,19,20,28]的开创性工作,R-CNN[10]首先使用选择性搜索[37]生成区域建议,然后通过卷积网络提取区域特征来细化这些建议。为了提高训练和推理速度,SPP[13]和Fast R-CNN[9]首先提取整个图像的特征映射,然后分别用空间金字塔池和RoI池生成区域特征。最后,用地区性的仪式来完善提案。Faster R-CNN[33]提出了一种区域建议网络,并开发了一种端到端可训练检测器,显著提高了性能,加快了推理速度。为了追求目标检测的尺度不变性,FPN[21]在卷积网络固有特征层次的基础上构建了一个网络内特征金字塔,并根据区域建议的尺度在不同的金字塔层次上进行预测。RoI Align[12]通过解决RoI池的量化问题,在目标检测和实例分割方面都有了很大的改进。可变形网络[5,42]通过对目标的几何结构建模,显著提高了目标检测的性能。Cascade R-CNN[1]将多级求精引入到更快的R-CNN中,从而实现对目标位置的更精确预测。

与两级探测器相反,一级探测器[25、30、6、31、22、17、23、32、39、41]效率更高,但精确度更低。SSD[25]将锚箱密集地放置在多尺度特征上,并基于这些锚进行预测。RetinaNet[22]利用类似于FPN的特征金字塔作为骨干,并引入了一种新的focal loss来解决简单和困难例子的不平衡问题。ExtremeNet〔41〕将目标检测问题建模为检测目标的4个极值点。这些工作从不同的角度取得了重大进展。本文研究如何更好地开发多尺度特征。

深入监督。深度监督[15,18,40,7]是解决梯度消失或增强中间层的特征表示。Huang等人。[15] 通过在不同层次上同时进行训练,将多个具有不同资源需求的分类器集成到一个单一的深层网络中。PSPNet[40]在中间层引入了额外的像素级损失,以降低优化难度。最近Nas-FPN[7]在所有中间金字塔网络之后附加了分类器和回归头,目的是实现随时检测。与这些工作相反,我们将实例级的监督信号应用于横向连接后的所有金字塔级别的特征,目的是缩小它们之间的语义间隙,使特征更适合后续的特征求和。

上下文利用。有几种方法证明了上下文在目标检测[8,29,38]和分割[16,26,40]中的重要性。Deeplab-v2[3]提出了一种基于阿托罗斯卷积的多尺度上下文提取方法,PSPNet[40]利用金字塔池来获得层次化的全局上下文,这两种方法都大大提高了语义分割的质量。与之不同的是,我们采用比率不变的自适应池来产生不同的空间上下文信息,并利用它们以剩余的方式减少特征在最高金字塔层次的通道中的信息损失。

投资回报分配策略。FPN[21]从一个特定的金字塔级别汇集RoI特征,根据RoI的规模选择。然而,在这种策略下,两个具有相似规模的方案可以被分配到不同的特征级别,这可能会产生次优结果。为了解决这个问题,PANet将来自所有金字塔级别的RoI特性汇集起来,并通过max操作将它们与完全连接的层独立地进行调整后进行融合。PANet与我们的工作有着明显的不同,我们提出了一种基于数据的自适应权值生成方法,并根据权值从各个层次吸收特征。这样可以更好地利用不同级别的功能。此外,我们的工作需要较少的参数,因为不需要额外的完全连接层来适应RoI特性。

图2。基于AugFPN的探测器的总体管线。(1) -(3)是AugFPN的三个主要组成部分:一致性监控、剩余特征增强和软RoI选择。为简单起见,不显示特征求和后的3×3卷积层。 

3  方法论 

AugFPN的总体框架如图2所示。在FPN[21]的设置之后,用于构建特征金字塔的特征被表示为{C2、C3、C4、C5},它们对应于特征层次w.r.t.中具有跨距{4、8、16、32}像素的特征映射。{M2、M3、M4、M5}是横向连接后特征通道减少的特征。{P2,P3,P4,P5}是由特征金字塔生成的特征。AugFPN的三个组成部分将在下面的小节中讨论。

3.1 一致监督

FPN利用在网络中生成不同分辨率的特征映射的特征层次结构来构建特征金字塔。为了集成多尺度的上下文信息,FPN通过自顶向下的路径进行上采样和求和,融合不同尺度的特征。然而,不同尺度的特征包含不同抽象层次的信息,它们之间存在很大的语义鸿沟。虽然FPN所采用的方法简单有效,但是融合多个语义间隙较大的特征会导致一个次优特征金字塔。这激励我们提出一致的监督,在融合前对多尺度特征实施相同的监控信号,目的是缩小它们之间的语义差距。具体来说,我们首先基于来自主干的多尺度特征{C2,C3,C4,C5}构建特征金字塔。然后,区域建议网络(RPN)被附加到产生的特征金字塔{P2、P3、P4、P5}中以生成大量roi。为了进行一致的监控,每个RoI被映射到所有的特征级别,RoI Align[12]获得了{M2、M3、M4、M5}的每个级别的RoI特征。之后,多个分类和盒回归头连接到这些特征,以产生辅助损失。这些分类和回归头的参数在不同的层次上共享,除了相同的监督信号外,还可以进一步迫使不同的特征映射学习相似的语义信息。为了更稳定的优化,使用权重来平衡由一致性监督和原始损失所产生的辅助损失。形式上,rcnn水的最终损失函数公式如下:

                           

     

                               

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐