吴恩达深度学习反向传播（Back Propagation）公式推导技巧

转自：https://www.cnblogs.com/southtonorth/p/9512559.html一直感觉反向传播（Back Propagation，BP）是这部分的重点，但是当时看的比较匆忙，有些公式的推导理解的不深刻，现在重新回顾一下，一是帮助自己梳理思路加深理解，二是记录下来以免遗忘。1.符号规定一般计算神经网络层数时不包括输入层，因此图1中的网络层数 L 为4；n[l]...

YADONCHEN

2664人浏览 · 2019-10-21 20:30:13

YADONCHEN · 2019-10-21 20:30:13 发布

转自：https://www.cnblogs.com/southtonorth/p/9512559.html
一直感觉反向传播（Back Propagation，BP）是这部分的重点，但是当时看的比较匆忙，有些公式的推导理解的不深刻，现在重新回顾一下，一是帮助自己梳理思路加深理解，二是记录下来以免遗忘。

1.符号规定

在这里插入图片描述
一般计算神经网络层数时不包括输入层，因此图1中的网络层数 L 为4；

n[l] 表示第 l 层的神经元的数量，n^[1] = n^[2] = 5，n^[3] = 3, n¹ ^=1，n[0]^ = n_x = 3；

z^[l] = W^[l]·a^[l-1] + b^[l]，w^[l] 表示第 l 层的权重，注意W没有转置，b^[l] 表示偏置；
W^[l]_i的形式：1*n_x

a^[l] 表示第 l 层中通过激活函数 g^[l] 激活后的值，表示如下：a^[l] = g^[l](z^[l])。

2.核对矩阵维数

吴恩达老师推荐的小技巧，通过核对矩阵的维数可以有效地判断代码是否有错。核对矩阵维数对后面的反向传播公式的推导很有帮助。
在这里插入图片描述
举个例子：z^[1] = W^[1]·x+ b^[1]

从图2可以看出：x 的维度是 (2,1)，且 z[1] 的维度是 (3,1)，由于等式两边维度一致，因此可以推出 W[1] 的维度为 (3,2)，且 b[1] 也为(3,1)。从正面看，因为第 1 层有 3 个神经元，且有 2 个输入，因此每个神经元中的参数要分别与两个输入相乘，也很容易得出 W[1] 的维度。同理可以推出后面层的参数的维度，总结规律是：

W^[l] = (n^[l],n^[l-1])

a^[l] = (n^[l],1)

z^[l] = b^[l] = (n^[l],1)

dx 和 x 的维度相同

若有 m 个样本，将公式向量化之后只需将 a^[l]和 z^[l] 改为大写，并将 1 改为 m 即可（对b，Python的广播机制将其维数从 1 变为 m ）。

3.前向传播和反向传播

3.1前向传播

Input：a^[l-1]

Output：a^[l], cache(z^[l]) (or W^[l], b^[l])

FP 的两个公式，比较简单，直接代入即可（主要根据这两个公式推导BP）：

z^[l] = W^[l]·a^[l-1] + b^[l] --------- ①

a^[l] = g^[l](z^[l]) ------------------- ②

3.2反向传播

Input：da^[l]

Output：da^[l-1], dW^[l], db^[l]

BP的公式：

首先求dz^[l]，由公式②，dz^[l] = da^[l]*g^[l]’(z^[l])，根据链式求导法则得出，因为*是元素对应相乘，所以两者顺序对结果不影响。
再求dW^[l]，由公式①，dW^[l] = dz^[l]·a^[l-1]T，因为乘积为点乘，因此两者顺序影响结果。此时，我们可以分析矩阵的维度来判断顺序以及是否要转置。dW^[l]为 (n^[l],n^[l-1])，dz^[l]为 (n^[l],1)，a^[l-1]为 (n^[l-1],1)，因此，要得到 dW^[l] 的维度，应该将 dz^[l] 放在前，并与a^[l-1]T作点积运算。（注：吴恩达老师在讲课时，写的是a^[l-1]，我个人认为此处是笔误，欢迎大家讨论）
同样根据公式①，容易得出：db^[l] = dz^[l]。
最后，根据公式①，da^[l-1]= W^[l]T·dz^[l]，da^[l-1] 的维度为 (n^[l-1],1)，W^[l] 的维度为 (n^[l],n^[l-1])，dz^[l]为 (n^[l],1)，显然需要将W^[l]转置再与dz^[l]作点积。

这样我们就得到的 Output 的三个值。

4 可参考本次作业https://blog.csdn.net/u013733326/article/details/79767169#commentsedit

4 ↩︎

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...