【PyTorch教程】保姆级实战教程【七】

第6章 - 优化技巧实训操作手册 1. 正则化技术：Dropout和Batch normalization 1.1 Dropout Dropout是一种防止神经网络过拟合的技术。它在训练期间随机“关闭”一些神经元，使其在前向传播和反向传播中都不工作。实操步骤：在你的模型中的适当位置插入Dropout层。选择一个dropout率，例如0.5

连涨

32人浏览 · 2023-08-23 11:31:29

连涨 · 2023-08-23 11:31:29 发布

第6章 - 优化技巧实训操作手册

1. 正则化技术：Dropout和Batch normalization

1.1 Dropout

Dropout是一种防止神经网络过拟合的技术。它在训练期间随机“关闭”一些神经元，使其在前向传播和反向传播中都不工作。

实操步骤：

在你的模型中的适当位置插入Dropout层。
选择一个dropout率，例如0.5，表示每次前向传播时都随机关闭50%的神经元。

import torch.nn as nn


class ModelWithDropout(nn.Module):
    def __init__(self):
        super(ModelWithDropout, self).__init__()
        self.fc1 = nn.Linear(10, 5)
        self.dropout = nn.Dropout(0.5)
        self.fc2 = nn.Linear(5, 1)


    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.dropout(x)
        x = self.fc2(x)
        return x

1.2 Batch normalization

Batch normalization可以使深度网络的每一层都进行归一化处理，从而加速训练。

实操步骤：

在你的模型的适当位置插入Batch normalization层。
确保Batch normalization的输入特征数量与前一层的输出特征数量相匹配。

class ModelWithBatchNorm(nn.Module):
    def __init__(self):
        super(ModelWithBatchNorm, self).__init__()
        self.fc1 = nn.Linear(10, 5)
        self.bn1 = nn.BatchNorm1d(5)
        self.fc2 = nn.Linear(5, 1)


    def forward(self, x):
        x = self.bn1(torch.relu(self.fc1(x)))
        x = self.fc2(x)
        return x

2. 超参数调优技巧

2.1 网格搜索

网格搜索是一种穷举搜索方法，用于找到最佳的超参数组合。

实操步骤：

定义要搜索的超参数的可能值。
使用每种组合训练模型，并选择性能最好的组合。

注意：由于网格搜索的计算成本可能很高，建议先在小型数据集上进行。

3. 学习率调度

3.1 学习率衰减

随着训练的进行，减小学习率可以帮助模型收敛。

实操步骤：

定义一个优化器。
使用一个学习率调度器，例如每10个epoch后将学习率乘以0.1。

import torch.optim as optim


optimizer = optim.SGD(model.parameters(), lr=0.01)
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)

4. 权重初始化策略

4.1 Xavier/Glorot初始化

适用于Sigmoid和tanh激活函数。

实操步骤：

使用Xavier初始化方法初始化你的模型的权重。

nn.init.xavier_uniform_(model.fc1.weight)

4.2 He初始化

适用于ReLU激活函数。

实操步骤：

使用He初始化方法初始化你的模型的权重。

nn.init.kaiming_uniform_(model.fc1.weight)

实战项目：优化第4章的CNN模型（服装图像分类）

目标：利用本章学到的优化技巧，提高第4章CNN模型在FashionMNIST数据集上的性能。

1. 数据准备

首先，我们要加载FashionMNIST数据集，并对其进行适当的预处理。

from torchvision import datasets, transforms


transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])


train_dataset = datasets.FashionMNIST(root='./data', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True)

2. 修改CNN模型

我们将在原始模型的基础上添加Dropout和Batch normalization。

import torch.nn as nn


class OptimizedCNN(nn.Module):
    def __init__(self):
        super(OptimizedCNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1)
        self.bn1 = nn.BatchNorm2d(32)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.bn2 = nn.BatchNorm2d(64)
        self.fc1 = nn.Linear(64 * 7 * 7, 128)
        self.dropout = nn.Dropout(0.5)
        self.fc2 = nn.Linear(128, 10)


    def forward(self, x):
        x = self.bn1(torch.relu(self.conv1(x)))
        x = nn.MaxPool2d(2)(x)
        x = self.bn2(torch.relu(self.conv2(x)))
        x = nn.MaxPool2d(2)(x)
        x = x.view(x.size(0), -1)
        x = torch.relu(self.fc1(x))
        x = self.dropout(x)
        x = self.fc2(x)
        return x


model = OptimizedCNN()

3. 初始化策略

使用He初始化方法对模型进行初始化。

def weights_init(m):
    if isinstance(m, nn.Conv2d) or isinstance(m, nn.Linear):
        nn.init.kaiming_uniform_(m.weight)


model.apply(weights_init)

4. 定义损失函数、优化器和学习率调度器

import torch.optim as optim


criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min', patience=5, factor=0.5)

5. 训练模型

训练模型时，我们还将调整学习率。

epochs = 10
for epoch in range(epochs):
    total_loss = 0.0
    for batch_idx, (data, target) in enumerate(train_loader):
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    average_loss = total_loss / len(train_loader)
    scheduler.step(average_loss)
    print(f"Epoch {epoch+1}/{epochs}, Average Loss: {average_loss:.4f}")

6. 评估模型

利用FashionMNIST的测试数据集评估模型。

test_dataset = datasets.FashionMNIST(root='./data', train=False, transform=transform)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=1000, shuffle=False)


model.eval()
correct = 0
with torch.no_grad():
    for data, target in test_loader:
        output = model(data)
        pred = output.argmax(dim=1)
        correct += pred.eq(target).sum().item()


accuracy = correct / len(test_loader.dataset)
print(f"Accuracy: {accuracy:.4f}")

更专业、系统、实战的高性能计算学习资源地

汇聚原天河团队并行计算工程师、中科院计算所专家以及头部AI名企HPC专家，助力解决“卡脖子”问题

更多推荐

计算机广东考研大学排名,广东省最值得考研的8所大学

本文由木哥原创，欢迎转载分享，转载须注明来自百家号“木哥说教”！今日话题：广东省最值得大家考研的8所大学！广东省虽然不是中国好大学最多的省份，但是却是很多名校毕业生最想去的地方，俗话说北上广深，广东就占据两位，足以看得出来广东是非常受大学生欢迎的一个城市，其实广东也有很多好的大学，对于一些想考研的学生也可以参考一下，木哥给大家梳理了8所比较不错的大学出来了，希望能帮到大家。第一所大学：中山大学又叫

高性能计算社区

【考研英语】词汇积累（详细全面，2023最新版）

缺课miss a class、旷课cut a class、辍学drop out、退学quit school、助学金assistantship、奖学金scholarship。老人the elderly、the old、the aged、the senior、aged parents、the old and infirm parents。只有only、nothing but、merely、大约abou

高性能计算社区

计算机类专业学习难度排行,全国33所名校计算机专业考研跨考难度系数排名

计算机系统结构前20名(总共47所高校)1.清华大学，2.华中科技大学，3.西安交通大学，4.上海交通大学，5.浙江大学，6.西安电子科技大学，7.武汉大学，8.复旦大学，9.哈尔滨工业大学，10.东北大学，11.北京大学，12.东南大学，13.北京航空航天大学，14.中国科学技术大学，15.电子科技大学，16.吉林大学，17.南京理工大学，18.重庆大学，19.北京科技大学，20.同济大学计算机