深度学习中的归一化(normalization)和正则化(regularization)

机器学习的学习过程基于概率和统计学，学习到的知识能用于其它数据的一个基本假设是独立同分布(IID)，因此把数据变成同分布是很有必要的。A.权重归一化: WN不归一化特征，而是归一化权重。假设卷积核的向量形式是，感受野的向量形式是，偏置为。一个神经元的输出可以表示为：。把权值写成：，因为，所以。这样，权值向量的模长就是，方向就是。模长和方向不再耦合，可以加速收敛。损失函数关于的导数：...

qq_26697045

11873人浏览 · 2018-12-17 16:45:39

qq_26697045 · 2018-12-17 16:45:39 发布

机器学习的学习过程基于概率和统计学，学习到的知识能用于其它数据的一个基本假设是独立同分布(IID)，因此把数据变成同分布是很有必要的。

A.权重归一化: WN

不归一化特征，而是归一化权重。

假设卷积核的向量形式是 $\vec{w}$ ，感受野的向量形式是 $\vec{x}$ ，偏置为。一个神经元的输出可以表示为： $y=\phi \left ( \vec{w}\cdot \vec{x}+b \right )$ 。把权值 $\vec{w}$ 写成： $\vec{w}= \frac{g}{\left \| \vec{v} \right \|} \vec{v}$ ，因为 $\frac{\vec{w}}{g}=\vec{e}$ ，所以 $\left \| \vec{w} \right \|=g$ 。这样，权值向量 $\vec{w}$ 的模长就是，方向就是 $\frac{\vec{v}}{\left \| \vec{v} \right \|}$ 。模长和方向不再耦合，可以加速收敛。

损失函数关于的导数：

$\triangledown _{g}L=\triangledown _{w}L\cdot \frac{\partial \vec{w}}{\partial g}=\frac{\triangledown _{w}L\cdot \vec{v}}{\left \| \vec{v} \right \|}$ 。

损失函数关于 $\vec{v}$ 的导数：

$\triangledown _{v}L=\triangledown _{w}L\cdot \frac{\partial w}{\partial \vec{v}}=\triangledown _{w}L\cdot g\cdot \left ( \frac{{\vec{v}}' \left \| \vec{v} \right \|-\vec{v}{\left \| \vec{v} \right \|}'}{\left \| \vec{v} \right \|^{2}} \right )=\triangledown _{w}L\cdot g\left ( \frac{1}{\left \| \vec{v} \right \|}-\frac{\vec{v}}{\left \| \vec{v} \right \|^{2}} \cdot \frac{\vec{v}}{\left \| \vec{v} \right \|} \right )=\triangledown _{w}L\cdot g\cdot \frac{1}{\left \| \vec{v} \right \|} - \triangledown _{w}L\cdot g\cdot \frac{\vec{v}}{\left \| \vec{v} \right \|} \cdot \frac{\vec{v}}{\left \| \vec{v} \right \| ^{2}}= \frac{g}{\left \| \vec{v} \right \|}\cdot \triangledown _{w}L - \frac{g\cdot \triangledown _{g}L}{\left \| \vec{v} \right \| ^{2} }\cdot \vec{v}$ 。

B.特征归一化: BN、LN、IN、GN、SN

归一化操作

特征归一化就是：

求输入数据input_data的均值 $\mu$ 、方差 $\sigma$ 。
把input_data通过线性变换 $\frac{input\_data - \mu }{\sigma }$ 化为均值为0、方差为1的标准正态分布。
使用可学习的参数 $\gamma$ 和 $\beta$ ，把input_data化为均值为 $\beta$ 、方差为 $\gamma^{2}$ 的正态分布。

BN、LN、IN、GN这一系列方法的作用可以表示为： $\hat{x}_{i}=\frac{1}{\sigma }_{i}\left ( x_{i}-\mu _{i} \right )$ (1)，其中是某层中的特征，是一个索引。对2维图像来说， $i=\left ( i_{N},i_{C},i_{H},i_{W} \right )$ 是一个按 $\left ( N,C,H,W \right )$ 顺序索引特征的4维向量，其中是batch轴，是通道轴，和是高度和宽度轴。

$\mu$ 和 $\sigma$ 是均值和标准差，计算方式是： $\mu _{i} = \frac{1}{m} \sum_{k\in S_{i}}^{ } x_{k}$ ， $\sigma _{i} = \sqrt{ \frac{1}{m} \sum_{k\in S_{i}}^{ } \left ( x_{k} - \mu _{i} \right ) ^{2} + \epsilon }$ ，其中 $\epsilon$ 是一个值较小的常量， $S_{i}$ 是用于计算均值和标准差的像素集合，是集合的大小。

$\hat{x}_{i}$ 是标准正态分布。归一化后的特征就是： $y_{i}=\gamma \hat{x}_{i}+\beta$ ，其中 $\gamma$ 和 $\beta$ 是可学习的变量，其均值 $E\left ( y_{i} \right ) = \gamma E\left ( \hat{x}_{i} \right ) +\beta = \beta$ ，方差 $D\left ( y_{i} \right ) = \gamma ^{2}D\left ( \hat{x}_{i} \right ) = \gamma ^{2}$ 。所以归一化后的特征 $F\sim N\left ( \beta ,\gamma ^{2} \right )$ 。

实现区别

四种特征归一化实现方法的区别在于 $S_{i}$ 不同。

BN中 $S_{i}=\left \{ k\mid k_{C}=i_{C} \right \}$ ：坐标相同的像素在一块归一化。
LN中 $S_{i} = \left \{ k \mid k_{N}=i_{N} \right \}$ ：坐标相同的像素在一块归一化。
IN中 $S_{i}=\left \{ k\mid k_{N}=i_{N},k_{C}=i_{C} \right \}$ ：坐标和坐标都相同的像素在一块归一化。
GN中 $S_{i} = \left \{ k\mid k_{N}=i_{N},\left \lfloor \frac{k_{C}}{C/G} \right \rfloor = \left \lfloor \frac{i_{C}}{C/G} \right \rfloor\right \}$ ：坐标相同的像素分为组，组内的像素在一块归一化。组数是一个预定义的超参数。 $\frac{C}{G}$ 是每组的通道数。 $\left \lfloor \cdot \right \rfloor$ 代表向下取整。图1最右的图中，， $k_{C}$ 在 $\left \{ 0,1,2,3,4,5 \right \}$ 中取值时 $\left \lfloor \frac{k_{C}}{C/G} \right \rfloor$ 的值为 $\left \{ 0,0,0,1,1,1 \right \}$ ， $i_{C}$ 同理，因此把坐标相同的像素分为2()组，每组的通道数是3()。

如公式(1)，BN、LN、IN学习各通道的线性变换以补偿表征能力的可能损失： $y_{i}=\gamma \hat{x}_{i}+\beta$ ，其中 $\gamma$ 和 $\beta$ 是可训练的尺度和偏移。

作用区别

图2.设置batch size为32/CPU时的误差曲线比较。模型是ResNet-50，数据集是ImageNet。左图是训练误差，右图是验证误差。

BN是唯一依赖batch size的归一化方法，在batch size较小时误差急剧增大。由于内存限制，检测、分割、视频识别这类任务的batch size一般都较小，所以BN就不合适。

对训练集这个大样本做归一化最符合归一化的目的，但难以实现。一个batch size是大样本中的一个小样本，于是对每个小样本归一化就成为一个可行的选择，所以BN是最常用的方法。当各batch size同分布时，它们较小的分布差异会增加健壮性，但分布差异大时一个batch size就难以代表整个样本的分布，所以训练前需要shuffle。

图2.ImageNet分类误差和batch size大小。图示的模型是ResNet-50，用8个GPU在ImageNet训练集上训练，在验证集上评估。BN的误差随batch size减小而急剧增大，GN的误差和batch size变化无关。当batch size为2时，GN的误差比BN小10%。

GN是LN和IN的复合，性能优于LN和IN。如图2，GN对batch size不敏感，因此可以用于batch size较小的情况。

虽然LN、IN对batch size不敏感，但其归一化能力较弱，当batch size较大时不如BN。因此SN组合LN、IN、BN，让网络学习权重参数以自动选择归一化方法：batch size越小，SN中BN的权重系数越小，IN和LN的权重系数越大；batch size越大，SN中BN的权重系数越大，IN和LN的权重系数越小。

[参考1][参考2]

点击阅读全文

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生