别再死记ResNet结构了！用PyTorch手把手拆解ResNet34的‘跳跃连接’（附完整代码）

KK大魔王

304人浏览 · 2026-06-08 16:42:23

KK大魔王 · 2026-06-08 16:42:23 发布

从PyTorch实现透视ResNet34：跳跃连接如何破解深度网络训练难题

当你在PyTorch中第一次看到 out += residual 这样的代码时，是否曾困惑这行简单的加法为何能解决深度神经网络训练的世界级难题？本文将带你深入ResNet34的实现细节，通过代码实例揭示跳跃连接（Skip Connection）背后的精妙设计。

1. 残差块：深度神经网络的革命性设计

传统卷积神经网络随着深度增加会遭遇梯度消失问题，导致深层网络反而不如浅层网络表现好。2015年ImageNet竞赛中，ResNet通过引入残差学习概念解决了这一难题。

残差块的核心思想可以用一个方程式表示：

输出 = F(x) + x

其中：

x 是输入
F(x) 是神经网络要学习的残差映射
+ 就是PyTorch中那个看似简单的加法操作

在PyTorch中，一个基础的残差块实现如下：

class BasicBlock(nn.Module):
    def __init__(self, in_channels, out_channels, stride=1):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, 
                              stride=stride, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3,
                              stride=1, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(out_channels)
        
        self.shortcut = nn.Sequential()
        if stride != 1 or in_channels != out_channels:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_channels, out_channels,
                         kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(out_channels)
            )
    
    def forward(self, x):
        residual = x
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        out = self.conv2(out)
        out = self.bn2(out)
        
        out += self.shortcut(residual)
        out = self.relu(out)
        return out

关键点：当输入输出维度不匹配时（stride≠1或通道数变化），需要通过1x1卷积调整维度后才能相加。

2. ResNet34架构全景解析

ResNet34由多个残差块堆叠而成，整体架构可分为以下几个部分：

网络部分	输出尺寸	组成模块
初始卷积	112x112	7x7卷积，stride=2 + BN + ReLU
最大池化	56x56	3x3池化，stride=2
layer1	56x56	3个残差块，64通道
layer2	28x28	4个残差块，128通道，stride=2
layer3	14x14	6个残差块，256通道，stride=2
layer4	7x7	3个残差块，512通道，stride=2
全局池化	1x1	平均池化
全连接	1000	分类输出

在PyTorch中构建完整ResNet34的代码如下：

class ResNet34(nn.Module):
    def __init__(self, num_classes=1000):
        super().__init__()
        self.in_channels = 64
        
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        
        self.layer1 = self._make_layer(64, 3, stride=1)
        self.layer2 = self._make_layer(128, 4, stride=2)
        self.layer3 = self._make_layer(256, 6, stride=2)
        self.layer4 = self._make_layer(512, 3, stride=2)
        
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(512, num_classes)
    
    def _make_layer(self, out_channels, blocks, stride=1):
        layers = []
        layers.append(BasicBlock(self.in_channels, out_channels, stride))
        self.in_channels = out_channels
        for _ in range(1, blocks):
            layers.append(BasicBlock(out_channels, out_channels))
        return nn.Sequential(*layers)
    
    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)
        
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)
        
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.fc(x)
        return x

3. 跳跃连接如何解决梯度消失问题

要理解跳跃连接的作用，我们需要从反向传播的角度分析。考虑一个简化的情况，假设有一个两层的残差块：

y = F(x, W) + x

在反向传播时，梯度计算为：

∂L/∂x = ∂L/∂y * (∂F/∂x + 1)

关键点：

即使∂F/∂x很小（梯度消失），仍有+1项保证梯度可以回传
梯度可以直接"跳过"中间层传播到更浅的层
这使得超深层网络（如152层的ResNet）也能有效训练

实验对比表明：

网络类型	层数	Top-1错误率
普通网络	34	28.5%
ResNet	34	24.0%
普通网络	152	训练失败
ResNet	152	21.3%

4. 实战：可视化ResNet34中的数据流动

为了更好地理解数据在ResNet中的流动，我们可以添加调试代码来跟踪特征图的变化：

def forward(self, x):
    print(f"输入尺寸: {x.size()}")
    residual = x
    
    out = self.conv1(x)
    print(f"第一卷积后: {out.size()}")
    out = self.bn1(out)
    out = self.relu(out)
    
    out = self.conv2(out)
    print(f"第二卷积后: {out.size()}")
    out = self.bn2(out)
    
    if self.shortcut:
        residual = self.shortcut(x)
        print(f"shortcut调整后: {residual.size()}")
    
    out += residual
    print(f"相加后: {out.size()}")
    out = self.relu(out)
    return out

典型输出可能如下：

输入尺寸: torch.Size([1, 64, 56, 56])
第一卷积后: torch.Size([1, 64, 56, 56]) 
第二卷积后: torch.Size([1, 64, 56, 56])
相加后: torch.Size([1, 64, 56, 56])

当有维度变化时：

输入尺寸: torch.Size([1, 64, 56, 56])
第一卷积后: torch.Size([1, 128, 28, 28]) 
第二卷积后: torch.Size([1, 128, 28, 28])
shortcut调整后: torch.Size([1, 128, 28, 28]) 
相加后: torch.Size([1, 128, 28, 28])

这种可视化方法能帮助你直观理解数据在残差块中的流动路径，特别是在维度变化时的处理方式。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

如何快速掌握AMD Ryzen系统调试：SMUDebugTool完整指南

你是否曾经看着AMD Ryzen系统复杂的硬件参数感到迷茫？当电脑出现性能波动或稳定性问题时，是否渴望有一把钥匙能打开硬件黑盒？今天我要向你介绍一个神奇的工具——SMUDebugTool，它能让你像专业工程师一样深入AMD Ryzen系统的每一个角落。✨想象一下，你可以实时查看CPU核心的电压变化，精准调整性能参数，甚至直接与硬件的"大脑"对话。这听起来像是高级工程师的专利，但通过SMUDeb

AMD开发者中国社区

免费开源AMD Ryzen调试工具SMUDebugTool终极指南：从硬件底层到性能调优

想要突破传统超频软件的局限，直接掌控AMD Ryzen处理器的硬件层参数吗？SMUDebugTool（又称Ryzen SDT）是一款完全免费开源的AMD系统调试工具，它提供了硬件工程师级别的精准控制能力，让你能够直接读写SMU、PCI、MSR和电源表等底层参数，实现前所未有的性能优化和系统调试。无论你是追求极致游戏体验的玩家、需要稳定高效运算的内容创作者，还是希望降低服务器功耗的管理员，这款工具都

AMD开发者中国社区

免费开源的AMD Ryzen调试工具：SMUDebugTool完全指南

你是否想要深度掌控你的AMD Ryzen处理器，释放它的全部潜能？SMUDebugTool是一款完全免费的开源AMD Ryzen调试工具，专门为硬件爱好者和系统开发者设计，让你能够直接与CPU核心对话，实现手动超频、SMU通信、PCI总线监控、CPUID信息解码和MSR寄存器操作等高级功能。这款强大的工具提供了前所未有的处理器控制能力，让你的AMD Ryzen系统发挥出最佳性能。## 🎯 为