深度学习基础：矩阵求导+反向传播

重点：向量对向量求导a = ，向量a对向量W求导，导数为WT.当自变量和因变量均为向量时，求导结果为一个矩阵，我们称该矩阵为雅可比矩阵(Jacobian Matrix)。

TANGWENTAI

1962人浏览 · 2022-10-07 13:37:13

TANGWENTAI · 2022-10-07 13:37:13 发布

求导过程

常用损失函数公式的求导：
李沐学AI
重点：向量对向量求导
a = <X,W>，向量a对向量W求导，导数为 $W^{T}$ .

推导过程：
当自变量和因变量均为向量时，求导结果为一个矩阵，我们称该矩阵为雅可比矩阵(Jacobian Matrix)。
令，，雅可比矩阵如下：

反向传播：

整体过程:
在这里插入图片描述

模型函数表达为y = x*w，  损失函数为loss

在这里插入图片描述

反向传播是通过损失loss对参数求偏导，对参数w进行随机梯度下降的更新。使损失函数达到局部最优解。

重点在于损失函数loss对参数w的偏导如何求：

案例如下：
1.利用前向传播由输入参数（浅灰）确定中间参数值（橙色）
2.反向传播：利用前向传播确定的中间参数值，反向求出损失函数loss对参数w（浅蓝）的偏导
在这里插入图片描述

代码中反向传播的使用：

一个标量调用它的backward()方法后，会根据链式法则自动计算出源变量的梯度值。

import torch

x = torch.arange(4.0)
x.requires_grad_(True)
y = 2 * torch.dot(x, x)
y.backward()
x.grad
# 输出： tensor([ 0.,  4.,  8., 12.])

x.grad.zero_()
y = x.sum()
y.backward()
x.grad
# 输出： tensor([1., 1., 1., 1.])

x.grad.zero_()
y = x * x
# 等价于y.backward(torch.ones(len(x)))
y.sum().backward()
x.grad
#输出：  tensor([0., 2., 4., 6.])

第一段代码： y = 2 * torch.dot(x,x) 的结果为28为一个标量

第二段代码： y = x.sum 进行反向传播后所得的各方向梯度均为1，而结果为8一个标量

第三段代码： y = x * x 的结果为 [0 , 1, 4, 9] 为一个向量

那么，如何将一维张量y变成标量呢？

一般通过对一维张量y进行求和来实现，即y.sum()。
一个一维张量就是一个向量，对一维张量求和等同于这个向量点乘一个等维的单位向量，使用求和得到的标量y.sum()对源变量x求导与y的每个元素对x的每个元素求导结果是一样的，最终对源张量x的梯度求解没有影响。

参考资料：
矩阵向量的求导
 刘二大人
 Pytorch autograd,backward详解

点击阅读全文

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

cover

李建忠：智能体正将互联网从信息网络重构为行动网络

腾讯云开发者社区

cover

探秘 DeepSeek 落地进展，腾讯云携手业界专家共话 AI 生产力

腾讯云开发者社区

cover

信息安全风云录，AI 时代安全江湖如何见招拆招？

腾讯云开发者社区

所有评论(0)

TANGWENTAI

已为社区贡献1条内容

相关产品推荐

数据库云原生大数据音视频安全人工智能

活动日历查看更多

直播时间 2025-04-09 18:47:09

腾讯云智算--助力探索 DeepSeek 无限边界

社区管理员助手

直播时间 2024-09-06 09:30:00

数智交通专场

直播时间 2024-09-05 09:00:00

腾讯生态大会-主会

直播时间 2024-09-06 10:00:00

数字安全专场

直播时间 2024-09-06 10:00:00

腾讯云存储专场

热门标签

服务器0元试用

开发者上云包

零基础建站

腾讯云标杆案例

音视频低代码

安全加速流量

行业上云方案

云原生数据库

对象存储COS

目录