一、概念

Tensor:data 和 grad
w.data
w.grad.data:数值计算,不构建计算图。
w.grad.item():取出数值。
w.grad.data.zero():清零。

训练的目的,是为了让损失更小,即在训练过程中不断更新ω的值,以使得loss最小。

所以我们在梯度下降的过程中,就是观察,并使其取向最小的趋势训练。

根据上一节我们可以得到一般简单的线性更新计算的解析式为:

Update为:
在这里插入图片描述
其中,α称为学习率。(采用贪心策略)

对应的Loss Function:

在这里插入图片描述

但是对于我们常用的复杂的网络时,如果还是按照上述的求解ω方法,则我们需要花费大量的时间来求解相应网络连接中的权重ω,因此,我们考虑用反向传播(back promption),以求解图的方式来求解对应的权重ω。
在这里插入图片描述

二、代码如下:

import torch
import matplotlib.pyplot as plt
x_data = [1.0,2.0,3.0]
y_data = [2.0,4.0,6.0]

w = torch.Tensor([3.0])  #初始化权重
w.requires_grad = True    #说明w需要计算梯度

# 注意其中w是tensor,在实际运算中开始进行数乘。
def forward(x):
    return w*x

# 损失函数的求解,构建计算图,并不是乘法或者乘方运算
def loss(x,y):
    y_pred = forward(x)
    return (y_pred - y) ** 2

print("Predict before training",4,forward(4).item())  ## 打印学习之前的值,.item表示输出张量的值

learning_rate = 0.01
epoch_list = []
loss_list =[]
#训练
for epoch in range(100):
    for x,y in zip(x_data,y_data):
        l=loss(x,y)
        l.backward()        #向后传播
        print('\tgrad',x,y,w.grad.item())    # 将梯度存到w之中,随后释放计算图,w.grad.item():取出数值
        w.data = w.data - learning_rate*w.grad.data # 张量中的grad也是张量,所以取张量中的data,不去建立计算图
        w.grad.data.zero_()  # 释放data
    print("process:",epoch,l.item())
    epoch_list.append(epoch)
    loss_list.append(l.item())
    
print('Predict after training', 4, forward(4).item())

#绘制可视化
plt.plot(epoch_list,loss_list)
plt.xlabel("epoch")
plt.ylabel("Loss")
plt.show()

运行结果:
在这里插入图片描述
在这里插入图片描述

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐