CNN卷积层、池化层、全连接层

卷积神经网络是通过神经网络反向传播自动学习的手段，来得到各种有用的卷积核的过程。卷积神经网络通过卷积和池化操作，自动学习图像在各个层次上的特征，这符合我们理解图像的常识。人在认知图像时是分层抽象的，首先理解的是颜色和亮度，然后是边缘、角点、直线等局部细节特征，接下来是纹理、几何形状等更复杂的信息和结构，最后形成整个物体的概念。典型的卷积神经网络通常由以下三种层结构共同组成：卷积层(Conv...

文章共4,391字 · 阅读需要大约15分钟

一键AI生成摘要，助你高效阅读

问答

JoannaJuanCV

38989人浏览 · 2019-03-02 14:25:00

JoannaJuanCV · 2019-03-02 14:25:00 发布

卷积神经网络是通过神经网络反向传播自动学习的手段，来得到各种有用的卷积核的过程。

卷积神经网络通过卷积和池化操作，自动学习图像在各个层次上的特征，这符合我们理解图像的常识。人在认知图像时是分层抽象的，首先理解的是颜色和亮度，然后是边缘、角点、直线等局部细节特征，接下来是纹理、几何形状等更复杂的信息和结构，最后形成整个物体的概念。

典型的卷积神经网络通常由以下三种层结构共同组成：
卷积层(Convolution)、下采样池化层(Pooling)、全连接层(Fully connected)

卷积层(Convolution)

通过卷积操作对输入图像进行降维和特征抽取

卷积运算是线性操作，而神经网络要拟合的是非线性的函数，因此和前全连接网络类似，我们需要加上激活函数，常用的有 sigmoid 函数，tanh 函数，ReLU 函数等。

神经网络前部卷积层有小的感受野，可以捕捉图像局部、细节信息，即输出图像的每个像素（Activation激活值）只是感受到输入图像很小范围数值进行计算的结果。
后面的卷积层感受野逐层加大，用于捕获图像更复杂，更抽象的信息。经过多个卷积层的运算，最后得到图像在各个不同尺度的抽象表示。

无论输入图片多大，卷积层的参数规模都是固定的

池化层(Pooling)

通过卷积操作，我们完成了对输入图像的降维和特征抽取，但特征图像的维数还是很高。维数高不仅计算耗时，而且容易导致过拟合。为此引入了下采样技术，也称为 pooling即池化操作。

池化的做法是对图像的某一个区域用一个值代替，如最大值或平均值。如果采用最大值，叫做 max 池化；如果采用均值，叫做均值池化。除了降低图像尺寸之外，下采样带来的另外一个好处是平移、旋转不变性，因为输出值由图像的一片区域计算得到，对于平移和旋转并不敏感。
总结池化层作用：

降维，缩减模型大小，提高计算速度
降低过拟合概率，提升特征提取鲁棒性
对平移和旋转不敏感

池化层的具体实现是在进行卷积操作之后对得到的特征图像进行分块，图像被划分成的不相交块，计算这些块内的最大值或平均值，得到池化后的图像。

均值池化和 max 池化都可以完成下采样操作，前者是线性函数，而后者是非线性函数，一般情况下 max 池化有更好的效果。

但近期一些性能优异的网络模型如ResNet和GoogLeNet等是采用全局均值池化（global average pooling，GAP）取代FC来融合学到的深度特征。

全连接层(Fully connected)

首先说明：可以不用全连接层的。

全连接层到底什么用？

全连接层（fully connected layers，FC）在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中，全连接层可由卷积操作实现：对前层是全连接的全连接层可以转化为卷积核为1x1的卷积；而前层是卷积层的全连接层可以转化为卷积核为hxw的全局卷积，h和w分别为前层卷积结果的高和宽。
目前由于全连接层参数冗余（仅全连接层参数就可占整个网络参数80%左右），近期一些性能优异的网络模型如ResNet和GoogLeNet等均用全局平均池化（global average pooling，GAP）取代FC来融合学到的深度特征，最后仍用softmax等损失函数作为网络目标函数来指导学习过程。需要指出的是，用GAP替代FC的网络通常有较好的预测性能。
在FC越来越不被看好的当下，近期的研究发现，FC可在模型表示能力迁移过程中充当“防火墙”的作用。具体来讲，假设在ImageNet上预训练得到的模型为\mathcal{M} ，则ImageNet可视为源域（迁移学习中的source domain）。微调（fine tuning）是深度学习领域最常用的迁移学习技术。针对微调，若目标域（target domain）中的图像与源域中图像差异巨大（如相比ImageNet，目标域图像不是物体为中心的图像，而是风景照，见下图），不含FC的网络微调后的结果要差于含FC的网络。因此FC可视作模型表示能力的“防火墙”，特别是在源域与目标域差异较大的情况下，FC可保持较大的模型capacity从而保证模型表示能力的迁移。（冗余的参数并不一无是处。）
全连接就是个矩阵乘法，相当于一个特征空间变换，可以把前面所有有用的信息提取整合。再加上激活函数的非线性映射，多层全连接层理论上可以模拟任何非线性变换。但缺点也很明显: 无法保持空间结构。
全连接的一个作用是维度变换，尤其是可以把高维变到低维，同时把有用的信息保留下来。全连接另一个作用是隐含语义的表达(embedding)，把原始特征映射到各个隐语义节点(hidden node)。对于最后一层全连接而言，就是分类的显示表达。不同channel同一位置上的全连接等价与1x1的卷积。N个节点的全连接可近似为N个模板卷积后的均值池化(GAP)。
最近的论文，你会发现，FC可以用GAP（Global Average Pooling）的方法代替。后者的思想就是：用 feature map 直接表示属于某个类的 confidence map，比如有10个类，就在最后输出10个 feature map，每个feature map中的值加起来求平均值，然后把得到的这些平均值直接作为属于某个类别的 confidence value，再输入softmax中分类，更重要的是实验效果并不比用 FC 差。
后者的优势是：1.因为FC的参数众多，这么做就减少了参数的数量（在最近比较火的模型压缩中，这个优势可以很好的压缩模型的大小）。2.因为减少了参数的数量，可以很好的减轻过拟合的发生。
另外，这种直接用 feature map 表示属于某个类的 confidence map 的做法很符合CNN的思想。
关于这点我的理解是这样的：比如最后要分10个类，假设在有 FC 的 network 中，FC 前面一层的feature map 用 A 表示，A 经过 FC 的作用得到了一个 10 维的向量（假设用 C 表示），然后输入softmax 等分类器中分类。既然CNN的学习能力很强，那为什么不直接让 CNN 学习输出 C（而不是 A）呢？可以看到这种思想和CNN结合的很好（FCN 也是用了类似的思想，以前的segmentation需要做很多的pre-processing/post-processing，比如region proposal等，然后用CNN提取特征，虽然比较繁琐但效果还是很好的。于是就有人想到，既然CNN那么牛，干脆什么都让CNN做，这样就可以省去繁琐的processing了，于是就出现了 pixel-to-pixel 的 segmentation）。

理解1：

卷积取的是局部特征，全连接就是把以前的局部特征重新通过权值矩阵组装成完整的图。
因为用到了所有的局部特征，所以叫全连接。

理解2：

从卷积网络谈起，卷积网络在形式上有一点点像咱们正在召开的“人民代表大会制度”。卷积核的个数相当于候选人，图像中不同的特征会激活不同的“候选人”（卷积核）。

池化层（仅指最大池化）起着类似于“合票”的作用，不同特征在对不同的“候选人”有着各自的喜好。

全连接相当于是“代表普选”。所有被各个区域选出的代表，对最终结果进行“投票”，全连接保证了receiptive field 是整个图像，既图像中各个部分（所谓所有代表），都有对最终结果影响的权利。

理解3：

假设你是一只小蚂蚁，你的任务是找小面包。你的视野还比较窄，只能看到很小一片区域。当你找到一片小面包之后，你不知道你找到的是不是全部的小面包，所以你们全部的蚂蚁开了个会，把所有的小面包都拿出来分享了。全连接层就是这个蚂蚁大会~

理解4：

例如经过卷积，relu后得到3x3x5的输出。

那它是怎么样把3x3x5的输出，转换成1x4096的形式？
在这里插入图片描述

很简单,可以理解为在中间做了一个卷积。
在这里插入图片描述
从上图我们可以看出，我们用一个3x3x5的filter 去卷积激活函数的输出，得到的结果就是一个fully connected layer 的一个神经元的输出，这个输出就是一个值。因为我们有4096个神经元。我们实际就是用一个3x3x5x4096的卷积层去卷积激活函数的输出。

以VGG-16再举个例子吧，

对224x224x3的输入，最后一层卷积可得输出为7x7x512，如后层是一层含4096个神经元的FC，则可用卷积核为7x7x512x4096的全局卷积来实现这一全连接运算过程。

它把特征representation整合到一起，输出为一个值。

这样做,有一个什么好处？就是大大减少特征位置对分类带来的影响。

举个简单的例子：
在这里插入图片描述
从上图我们可以看出，猫在不同的位置，输出的feature值相同，但是位置不同。

对于电脑来说，特征值相同，但是特征值位置不同，那分类结果也可能不一样。

这时全连接层filter的作用就相当于

喵在哪我不管，我只要喵，于是我让filter去把这个喵找到，

实际就是把feature map 整合成一个值，这个值大，有喵，这个值小，那就可能没喵

和这个喵在哪关系不大了，鲁棒性有大大增强。

因为空间结构特性被忽略了，所以全连接层不适合用于在方位上找Pattern的任务，比如segmentation。
全连接层中一层的一个神经元就可以看成一个多项式，

我们用许多神经元去拟合数据分布

但是只用一层fully connected layer 有时候没法解决非线性问题，

而如果有两层或以上fully connected layer就可以很好地解决非线性问题了

我们都知道，全连接层之前的作用是提取特征

全理解层的作用是分类

我们现在的任务是去区别一图片是不是猫
在这里插入图片描述

假设这个神经网络模型已经训练完了，全连接层已经知道
在这里插入图片描述

当我们得到以上特征，我就可以判断这个东东是猫了。

因为全连接层的作用主要就是实现分类（Classification）

从下图，我们可以看出
在这里插入图片描述

红色的神经元表示这个特征被找到了（激活了）

同一层的其他神经元，要么猫的特征不明显，要么没找到

当我们把这些找到的特征组合在一起，发现最符合要求的是猫

ok，我认为这是猫了
在这里插入图片描述

猫头有这么些个特征，于是我们下一步的任务

就是把猫头的这么些子特征找到，比如眼睛啊，耳朵啊
在这里插入图片描述

道理和区别猫一样

当我们找到这些特征，神经元就被激活了（上图红色圆圈）

这细节特征又是怎么来的？

就是从前面的卷积层，下采样层来的

全连接层参数特多（可占整个网络参数80%左右）

全连接层对模型影响参数就是三个：

全接解层的总层数（长度）
单个全连接层的神经元数（宽度）
激活函数

接下来再主要谈谈全连接层的意义

连接层实际就是卷积核大小为上层特征大小的卷积运算，卷积后的结果为一个节点，就对应全连接层的一个点。
假设最后一个卷积层的输出为7×7×512，连接此卷积层的全连接层为1×1×4096。
连接层实际就是卷积核大小为上层特征大小的卷积运算，卷积后的结果为一个节点，就对应全连接层的一个点。如果将这个全连接层转化为卷积层：
1.共有4096组滤波器
2.每组滤波器含有512个卷积核
3.每个卷积核的大小为7×7
4.则输出为1×1×4096

若后面再连接一个1×1×4096全连接层。则其对应的转换后的卷积层的参数为：
1.共有4096组滤波器
2.每组滤波器含有4096个卷积核
3.每个卷积核的大小为1×1
4.输出为1X1X4096
相当于就是将特征组合起来进行4096个分类分数的计算，得分最高的就是划到的正确的类别。

而全连接层的坏处就在于其会破坏图像的空间结构，
因此人们便开始用卷积层来“代替”全连接层，
通常采用1×1的卷积核，这种不包含全连接的CNN成为全卷积神经网络（FCN），
FCN最初是用于图像分割任务，
之后开始在计算机视觉领域的各种问题上得到应用，
事实上，Faster R-CNN中用来生成候选窗口的CNN就是一个FCN。
FCN的特点就在于输入和输出都是二维的图像，并且输入和输出具有相对应的空间结构，
在这种情况下，我们可以将FCN的输出看作是一张热度图，用热度来指示待检测的目标的位置和覆盖的区域。
在目标所处的区域内显示较高的热度，
而在背景区域显示较低的热度，
这也可以看成是对图像上的每一个像素点都进行了分类，
这个点是否位于待检测的目标上。