目前比较主流的基于深度学习的目标检测框架主要分为两类,一类是基于two-stage的方法,比如RCNN,Fast RCNN,Faster RCNN,将检测任务分为回归(location)和分类任务。还有基于one-stage的目标检测框架,例如YOLO/YOLOv2,SSD等,同时完成检测和回归任务。two-stage任务准确率较高,但是速度比较慢。one-stage能够达到实时性但是牺牲了精度。下面一次对这些进行一个系统的总结。

R-CNN,Fast R-CNN,Faster R-CNN关系表

R-CNN

RCNN的思想是利用SS算法提取候选框,然后利用CNN提取特征,最后利用SVM进行识别。

简单来说,RCNN使用以下四步实现目标检测:

  1. 在图像中确定约1000-2000个候选框
  2. 对于每个候选框内图像块,使用深度网络提取特征
  3. 对候选框中提取出的特征,使用分类器判别是否属于一个特定类
  4. 对于属于某一特征的候选框,用回归器进一步调整其位置

selective search算法

使用了Selective Search1方法从一张图像生成约2000-3000个候选区域。基本思路如下:

  • 使用一种过分割手段,将图像分割成小区域
  • 查看现有小区域,合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置
  • 输出所有曾经存在过的区域,所谓候选区域

分割的部分采取了基于图的分割算法,其实这一部分没太看懂。。。

合并规则

优先合并以下四种区域:

  1. 颜色(颜色直方图)相近的
  2. 纹理(梯度直方图)相近的
  3. 合并后总面积小的
  4. 合并后,总面积在其BBOX中所占比例大的

第三条,保证合并操作的尺度较为均匀,避免一个大区域陆续“吃掉”其他小区域。

例:设有区域a-b-c-d-e-f-g-h。
较好的合并方式是:ab-cd-ef-gh -> abcd-efgh -> abcdefgh。 
不好的合并方法是:ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

第四条,保证合并后形状规则。

左图适合合并,右图不适合合并

上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置。合并后的区域特征可以直接由子区域特征计算而来,速度较快。

多样化与后处理

为尽可能不遗漏候选区域,上述操作在多个颜色空间中同时进行(RGB,HSV,Lab等)。在一个颜色空间中,使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果,在去除重复后,都作为候选区域输出。

RCNN解决的问题是利用selective search算法代替滑动窗口算法,提升了产生region proposal算法速度的问题。

Fast RCNN

Fast R-CNN框架与R-CNN有两处不同:

① 最后一个卷积层后加了一个ROI pooling layer;

② 损失函数使用了multi-task loss(多任务损失)函数,将边框回归直接加到CNN网络中训练。分类Fast R-CNN直接用softmax替代R-CNN用的SVM进行分类。

Fast R-CNN是端到端(end-to-end)的。

ROI Pooling

ROIs Pooling顾名思义,是Pooling层的一种,而且是针对RoIs的Pooling,他的特点是输入特征图尺寸不固定,但是输出特征图尺寸固定;[2]

什么是ROI呢?
ROI是Region of Interest的简写,指的是在“特征图上的框”;
1)在Fast RCNN中, RoI是指Selective Search完成后得到的“候选框”在特征图上的映射,如下图所示;
2)在Faster RCNN中,候选框是经过RPN产生的,然后再把各个“候选框”映射到特征图上,得到RoIs。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SUwNSnrd-1570719728424)(https://ws1.sinaimg.cn/large/005BVyzmgy1ftu89n0t9pj315s0dv461.jpg)]

ROI Pooling的输入

输入有两部分组成:

  1. 特征图:指的是图1中所示的特征图,在Fast RCNN中,它位于RoI Pooling之前,在Faster RCNN中,它是与RPN共享那个特征图,通常我们常常称之为“share_conv”;
  2. rois:在Fast RCNN中,指的是Selective Search的输出;在Faster RCNN中指的是RPN的输出,一堆矩形候选框框,形状为1x5x1x1(4个坐标+索引index),其中值得注意的是:坐标的参考系不是针对feature map这张图的,而是针对原图的(神经网络最开始的输入)

ROI Pooling的输出

输出是batch个vector,其中batch的值等于RoI的个数,vector的大小为channel * w * h;RoI Pooling的过程就是将一个个大小不同的box矩形框,都映射成大小固定(w * h)的矩形框;

其实这里有一点空间金字塔池化(SSP)的思想。即将所有大小不同的候选框resize()成大小一样的候选框。 参考ROI Pooling层详解

multi task

cls_score层用于分类,输出K+1维数组p,表示属于K类和背景的概率。
bbox_prdict层用于调整候选区域位置,输出4*K维数组t,表示分别属于K类时,应该平移缩放的参数。

loss_cls层评估分类代价。由真实分类 u u u对应的概率决定:

L c l s = − l o g p u L_{cls}=-log p_u Lcls=logpu

loss_bbox评估检测框定位代价。比较真实分类对应的预测参数 t u t^u tu和真实平移缩放参数为v的差别:

L l o c = ∑ i = 1 4 g ( t i u − v i ) L_{loc}=\sum_{i=1}^4 g(t_i^u-v_i) Lloc=i=14g(tiuvi)

g为Smooth L1误差,对outlier不敏感:

g ( x ) = { 0.5 x 2 ∣ x ∣ < 1 ∣ x ∣ − 0.5 o t h e r w i s e g(x)=\begin{cases}0.5x^2& |x|<1\\|x|-0.5&otherwise \end{cases} g(x)={0.5x2x0.5x<1otherwise

总代价为两者加权和,如果分类为背景则不考虑定位代价:

L = { L c l s + L l o c u 为 前 景 L l o c u 为 背 景 L=\begin{cases}L_{cls}+L_{loc}& u为前景\\L_{loc}& u为背景\end{cases} L={Lcls+LlocLlocuu

回归

Faster R-CNN

Faster R-CNN的思想

Faster R-CNN可以简单地看做“区域生成网络RPNs + Fast R-CNN”的系统,用区域生成网络代替FastR-CNN中的Selective Search方法。Faster R-CNN这篇论文着重解决了这个系统中的三个问题:

  1. 如何设计区域生成网络;
  2. 如何训练区域生成网络;
  3. 如何让区域生成网络和Fast RCNN网络共享特征提取网络。

在整个Faster R-CNN算法中,有三种尺度:

  1. 原图尺度:原始输入的大小。不受任何限制,不影响性能。
  2. 归一化尺度:输入特征提取网络的大小,在测试时设置,源码中opts.test_scale=600。anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。
  3. 网络输入尺度:输入特征检测网络的大小,在训练时设置,源码中为224*224。

Faster R-CNN框架

Faster-R-CNN算法由两大模块组成:

  1. PRN候选框提取模块;
  2. Fast R-CNN检测模块。

其中,RPN是全卷积神经网络,用于提取候选框;Fast R-CNN基于RPN提取的proposal检测并识别proposal中的目标。

RPN网络

背景

目前最先进的目标检测网络需要先用区域建议算法推测目标位置,像SPPnet和Fast R-CNN这些网络虽然已经减少了检测网络运行的时间,但是计算区域建议依然耗时较大。所以,在这样的瓶颈下,RBG和Kaiming He一帮人将Region Proposal也交给CNN来做,这才提出了RPN(Region Proposal Network)区域建议网络用来提取检测区域,它能和整个检测网络共享全图的卷积特征,使得区域建议几乎不花时间。

RCNN解决的是,“为什么不用CNN做classification呢?”
Fast R-CNN解决的是,“为什么不一起输出bounding box和label呢?”
Faster R-CNN解决的是,“为什么还要用selective search呢?”

基本思想

RPN的核心思想是使用CNN卷积神经网络直接产生Region Proposal,使用的方法本质上就是滑动窗口(只需在最后的卷积层上滑动一遍),因为anchor机制和边框回归可以得到多尺度多长宽比的Region Proposal。

anchors机制

anchor是rpn网络的核心。刚刚说到,需要确定每个滑窗中心对应感受野内存在目标与否。由于目标大小和长宽比例不一,需要多个尺度的窗。Anchor即给出一个基准窗大小,按照倍数和长宽比例得到不同大小的窗。例如论文中基准窗大小为16,给了(8、16、32)三种倍数和(0.5、1、2)三种比例,这样能够得到一共9种尺度的anchor

分类和回归

前面介绍了如何anchors机制,接着就要思考如何判断是否存在物体以及是否需要训练

利用anchor是从第二列这个位置开始进行处理,这个时候,原始图片已经经过一系列卷积层和池化层以及relu,得到了这里的 feature:51x39x256(256是层数)在这个特征参数的基础上,通过一个3x3的滑动窗口,在这个51x39的区域上进行滑动,stride=1,padding=2,这样一来,滑动得到的就是51x39个3x3的窗口。对于每个3x3的窗口,作者就计算这个滑动窗口的中心点所对应的原始图片的中心点。然后作者假定,这个3x3窗口,是从原始图片上通过SPP池化得到的,而这个池化的区域的面积以及比例,就是一个个的anchor。换句话说,对于每个3x3窗口,作者假定它来自9种不同原始区域的池化,但是这些池化在原始图片中的中心点,都完全一样。这个中心点,就是刚才提到的,3x3窗口中心点所对应的原始图片中的中心点。如此一来,在每个窗口位置,我们都可以根据9个不同长宽比例、不同面积的anchor,逆向推导出它所对应的原始图片中的一个区域,这个区域的尺寸以及坐标,都是已知的。而这个区域,就是我们想要的 proposal。所以我们通过滑动窗口和anchor,成功得到了 51x39x9 个原始图片的proposal。接下来,每个proposal我们只输出6个参数:每个 proposal 和 ground truth 进行比较得到的前景概率和背景概率(2个参数)(对应图上的 cls_score);由于每个 proposal 和 ground truth 位置及尺寸上的差异,从 proposal 通过平移放缩得到 ground truth 需要的4个平移放缩参数(对应图上的 bbox_pred)。

RPN训练

RPN网络训练,那么就涉及ground truth和loss function的问题。对于左支路,ground truth为anchor是否为目标,用0/1表示。那么怎么判定一个anchor内是否有目标呢?论文中采用了这样的规则:

  1. 假如某anchor与任一目标区域的IoU最大,则该anchor判定为有目标;
  2. 假如某anchor与任一目标区域的IoU>0.7,则判定为有目标;
  3. 假如某anchor与任一目标区域的IoU<0.3,则判定为背景。所谓IoU,就是预测box和真实box的覆盖率,其值等于两个box的交集除以两个box的并集。其它的anchor不参与训练。

YOLO

  • 直接对bounding box回归,并不是计算候选和gt之间的 Δ ,并且不构造 hard negatives
  • 速度快,将检测过程变为一个回归问题,简化了很多计算过程(Faster R-CNN也是回归)
  • 全局观,不像R-CNN那样只利用region信息,YOLO会利用整体信息
  • 泛化能力强,尤其训练和测试数据不一致的时候可以表现比较好的泛化性
  • 准去率略低,YOLO是准确率和速度之间的tradeoff

基本原理

  1. 将原图划分为 S×S 的网格
  2. 每一个网格会预测B个bounding box和confidence得分,五元组具体为
    ( x , y , w , h , P r ( O b j e c t ) ∗ I O U t r u t h p r e d ) (x,y,w,h,Pr(Object)*IOU_{truth}^{pred}) (x,y,w,h,Pr(Object)IOUtruthpred) ,其中 P r ( O b j e c t ) Pr(Object) Pr(Object) 表示当前位置是一个Object的概率,IOU是预测的box和groundtruth之间的重叠概率(比例?)。其中 x x x y y y是中心坐标。
  3. 每一个网格预测类别概率 C i = P r ( C l a s s i ∣ O b j e c t ) C_i=Pr(Class_i|Object) Ci=Pr(ClassiObject) .
  4. 预测的时候,将类条件概率和置信度相乘: P r ( C l a s s i ∣ O b j e c t ) ∗ P r ( O b j e c t ) ∗ I O U t r u t h p r e d = P r ( C l a s s i ) ∗ I O U t r u t h p r e d Pr(Class_i|Object)*Pr(Object)*IOU_{truth}^{pred}=Pr(Class_i)*IOU_{truth}^{pred} Pr(ClassiObject)Pr(Object)IOUtruthpred=Pr(Classi)IOUtruthpred

如下图所示

总结一下,每个单元格需要预测 ( B × 5 + C ) (B\times 5 +C) (B×5+C)。如果将输入图片划分为 S × S S\times S S×S 网格,那么最终预测值为 S × S × ( B ∗ 5 + C ) S\times S\times (B*5+C) S×S×(B5+C) 大小的张量。整个模型的预测值结构如下图所示。对于PASCAL VOC数据,其共有20个类别,如果使用 S = 7 , B = 2 S=7,B=2 S=7,B=2 ,那么最终的预测结果就是 7 × 7 × 30 7\times 7\times 30 7×7×30 大小的张量。在下面的网络结构中我们会详细讲述每个单元格的预测值的分布位置。

网络设计

Yolo采用卷积网络来提取特征,然后使用全连接层来得到预测值。网络结构参考GooLeNet模型,包含24个卷积层和2个全连接层,如图8所示。对于卷积层,主要使用1x1卷积来做channle reduction,然后紧跟3x3卷积。对于卷积层和全连接层,采用Leaky ReLU激活函数: max(x, 0.1x) 。但是最后一层却采用线性激活函数。

通过卷积网络最后得到一个 7 ∗ 7 ∗ 30 7*7*30 7730维的数据。其中30维数据前面20个表示分类类别,中间两个表示confidence,后面表示2*(x,y,w,h)。


从上面的网络结构可以看出维度为4096的FC层后面还连接这一层FC,其维度为 ( 1 , S × S × ( B × 5 + C ) ) (1,S\times S\times (B\times 5+C)) (1,S×S×(B×5+C))。然后reshape成 ( S × S , ( B × 5 + C ) ) (S\times S,(B\times 5+C)) (S×S,(B×5+C))

训练损失函数

YOLO使用均方和误差作为loss函数来优化模型参数,即网络输出的 S × S × ( B × 5 + C ) S\times S\times (B\times 5 + C) S×S×(B×5+C)维向量与真实图像的对应 S × S ∗ ( B × 5 + C ) S\times S*(B\times 5 + C) S×S(B×5+C)维向量的均方和误差。如下式所示。其中, c o o r d E r r o r coordError coordError i o u E r r o r iouError iouError c l a s s E r r o r classError classError分别代表预测数据与标定数据之间的坐标误差、IOU误差和分类误差。

l o s s = ∑ i = 1 s 2 ( c o o r d E r r o r + i o u E r r o r + c l a s s E r r o r ) loss=\sum_{i=1}^{s^2}(coordError+iouError+classError) loss=i=1s2(coordError+iouError+classError)

关于bounding box如何初始化的,这里还没有搞清楚。有知道的大佬可以交流一下。

缺点

  1. YOLO对相互靠的很近的物体(挨在一起且中点都落在同一个格子上的情况),还有很小的群体检测效果不好,这是因为一个网格中只预测了两个框,并且只属于一类。
  2. 测试图像中,当同一类物体出现的不常见的长宽比和其他情况时泛化能力偏弱。
  3. 由于损失函数的问题,定位误差是影响检测效果的主要原因,尤其是大小物体的处理上,还有待加强。

SSD

  1. SSD结合了YOLO中的回归思想和Faster-RCNN中的Anchor机制,使用全图各个位置的多尺度区域特征进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟Faster-RCNN一样比较精准。

  2. SSD的核心是在特征图上采用卷积核来预测一系列Default Bounding Boxes的类别、坐标偏移。为了提高检测准确率,SSD在不同尺度的特征图上进行预测。

几个要点

一、模型结构

1 多尺度特征图(Mult-scale Feature Map For Detection)

在图像Base Network基础上,将Fc6,Fc7变为了Conv6,Conv7两个卷积层,添加了一些卷积层(Conv8,Conv9,Conv10,Conv11),这些层的大小逐渐减小,可以进行多尺度预测。

2 卷积预测器(Convolutional Predictors For Detection)

每个新添加的卷积层和之前的部分卷积层,使用一系列的卷积核进行预测。对于一个大小为mn大小,p通道的卷积层,使用33的p通道卷积核作为基础预测元素进行预测,在某个位置上预测出一个值,该值可以是某一类别的得分,也可以是相对于Default Bounding Boxes的偏移量,并且在图像的每个位置都将产生一个值。

3 默认框和比例(Default Boxes And Aspect Ratio)

在特征图的每个位置预测K个Box。对于每个Box,预测C个类别得分,以及相对于Default Bounding Box的4个偏移值,这样需要(C+4) × \times ×k个预测器,在m × \times ×n的特征图上将产生(C+4) × \times ×k × \times ×m × \times ×n个预测值。这里,Default Bounding Box类似于Faster-RCNN中Anchors,如下图所示。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Sy9XMhS8-1570719728431)(https://ws1.sinaimg.cn/large/005BVyzmgy1ftuk0fjxd4j311q0e7n76.jpg)]

二、模型训练

1 监督学习的训练关键是人工标注的label。对于包含Default Box(在Faster R-CNN中叫做Anchor)的网络模型(如:YOLO,Faster R-CNN, MultiBox)关键点就是如何把 标注信息(Ground True Box,Ground True Category)映射到(Default Box上)。

2 给定输入图像以及每个物体的Ground Truth,首先找到每个Ground True Box对应的Default Box中IOU最大的作为正样本。然后,在剩下的Default Box中找到那些与任意一个Ground Truth Box的IOU大于0.5的Default Box作为正样本。其他的作为负样本(每个Default Box要么是正样本Box要么是负样本Box)。如上图中,两个Default Box与猫匹配,一个与狗匹配。在训练过程中,采用Hard Negative Mining 的策略(根据Confidence Loss对所有的Box进行排序,使正负例的比例保持在1:3) 来平衡正负样本的比率。

3 损失函数

与Faster-RCNN中的RPN是一样的,不过RPN是预测Box里面有Object或者没有,没有分类,SSD直接用的Softmax分类。Location的损失,还是一样,都是用Predict box和Default Box/Anchor的差 与Ground Truth Box和Default Box/Anchor的差进行对比,求损失。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MpBuHjQy-1570719728432)(https://ws1.sinaimg.cn/large/005BVyzmgy1ftuk2hiyk1j30qo0jsx6p.jpg)]

参考资料

  1. https://blog.csdn.net/shenxiaolu1984/article/details/51066975
  2. https://blog.csdn.net/lanran2/article/details/60143861
  3. https://blog.csdn.net/lanran2/article/details/54376126
  4. https://blog.csdn.net/hunterlew/article/details/71075925
  5. https://www.zhihu.com/question/42205480
  6. https://zhuanlan.zhihu.com/p/32525231
  7. http://lanbing510.info/2017/08/28/YOLO-SSD.html
  8. https://blog.csdn.net/amor_tila/article/details/78809791
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐