别再死磕理论了！用PyTorch手把手带你跑通第一个GAN（附完整代码和避坑点）

本文通过PyTorch实战教程，手把手教你实现一个生成MNIST手写数字的GAN模型。从环境配置、生成器和判别器构建，到数据预处理和训练过程，详细解析每个步骤的关键实现和常见避坑点，帮助开发者快速掌握GAN的实践应用。

pirichain

450人浏览 · 2026-05-28 15:03:01

pirichain · 2026-05-28 15:03:01 发布

从零实现PyTorch GAN：MNIST手写数字生成实战指南

很多学习者在理解GAN原理后，面对实际代码实现时仍会感到无从下手。本文将带你用PyTorch完整实现一个生成MNIST手写数字的GAN模型，避开那些教科书不会告诉你的实践陷阱。

1. 环境准备与项目初始化

在开始编写GAN代码前，确保你的开发环境已正确配置。推荐使用Python 3.8+和PyTorch 1.12+版本组合，这是经过验证的稳定搭配。

conda create -n gan_env python=3.8
conda activate gan_env
pip install torch==1.12.1 torchvision==0.13.1

项目目录结构建议如下：

pytorch_gan/
├── data/          # 存放MNIST数据集
├── models/        # 模型定义文件
│   ├── generator.py
│   └── discriminator.py
├── utils/         # 工具函数
│   └── visualize.py
├── train.py       # 训练脚本
└── generate.py    # 生成新样本

注意：避免使用最新版本的PyTorch，某些API变动可能导致GAN训练不稳定。我们选择1.12版本是因为其良好的向后兼容性。

2. 构建生成器和判别器

GAN的核心是两个相互对抗的神经网络。我们先实现生成器，它将随机噪声转换为逼真的手写数字图像。

# models/generator.py
import torch.nn as nn

class Generator(nn.Module):
    def __init__(self, latent_dim=100):
        super().__init__()
        self.main = nn.Sequential(
            nn.Linear(latent_dim, 256),
            nn.LeakyReLU(0.2),
            nn.BatchNorm1d(256),
            nn.Linear(256, 512),
            nn.LeakyReLU(0.2),
            nn.BatchNorm1d(512),
            nn.Linear(512, 1024),
            nn.LeakyReLU(0.2),
            nn.BatchNorm1d(1024),
            nn.Linear(1024, 784),
            nn.Tanh()
        )
    
    def forward(self, z):
        img = self.main(z)
        return img.view(-1, 1, 28, 28)

判别器的实现需要特别注意激活函数的选择：

# models/discriminator.py
class Discriminator(nn.Module):
    def __init__(self):
        super().__init__()
        self.main = nn.Sequential(
            nn.Linear(784, 1024),
            nn.LeakyReLU(0.2),
            nn.Dropout(0.3),
            nn.Linear(1024, 512),
            nn.LeakyReLU(0.2),
            nn.Dropout(0.3),
            nn.Linear(512, 256),
            nn.LeakyReLU(0.2),
            nn.Dropout(0.3),
            nn.Linear(256, 1),
            nn.Sigmoid()
        )
    
    def forward(self, img):
        flattened = img.view(-1, 784)
        validity = self.main(flattened)
        return validity

关键设计选择对比：

组件	激活函数	正则化	输出处理
生成器	LeakyReLU(0.2)	BatchNorm	Tanh ([-1,1])
判别器	LeakyReLU(0.2)	Dropout	Sigmoid ([0,1])

3. 数据准备与预处理

MNIST数据集的正确处理对GAN训练至关重要。我们需要对数据进行标准化并创建合适的数据加载器。

from torchvision import datasets, transforms

transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize([0.5], [0.5])  # 将[0,1]转换为[-1,1]
])

dataset = datasets.MNIST(
    'data/', 
    train=True,
    download=True,
    transform=transform
)

dataloader = torch.utils.data.DataLoader(
    dataset,
    batch_size=64,
    shuffle=True,
    num_workers=4
)

常见预处理错误及修正：

错误1 ：直接使用[0,1]范围的图像
- 修正：使用Normalize转换到[-1,1]范围，与生成器的Tanh输出匹配
错误2 ：过大的batch size
- 修正：64-128是理想范围，太大导致模式崩溃，太小训练不稳定
错误3 ：忽略数据增强
- 修正：可添加随机旋转(±10°)等简单增强

4. 训练过程实现

GAN训练需要精心设计损失函数和优化策略。以下是完整的训练循环实现：

# train.py
def train_gan():
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    
    # 初始化模型
    generator = Generator().to(device)
    discriminator = Discriminator().to(device)
    
    # 定义优化器
    opt_g = torch.optim.Adam(generator.parameters(), lr=0.0002, betas=(0.5, 0.999))
    opt_d = torch.optim.Adam(discriminator.parameters(), lr=0.0002, betas=(0.5, 0.999))
    
    # 损失函数
    adversarial_loss = nn.BCELoss()
    
    for epoch in range(200):
        for i, (real_imgs, _) in enumerate(dataloader):
            real_imgs = real_imgs.to(device)
            batch_size = real_imgs.size(0)
            
            # 训练判别器
            opt_d.zero_grad()
            
            # 真实样本损失
            real_labels = torch.ones(batch_size, 1).to(device)
            real_loss = adversarial_loss(discriminator(real_imgs), real_labels)
            
            # 生成样本损失
            z = torch.randn(batch_size, 100).to(device)
            fake_imgs = generator(z)
            fake_labels = torch.zeros(batch_size, 1).to(device)
            fake_loss = adversarial_loss(discriminator(fake_imgs.detach()), fake_labels)
            
            d_loss = (real_loss + fake_loss) / 2
            d_loss.backward()
            opt_d.step()
            
            # 训练生成器
            opt_g.zero_grad()
            
            valid_labels = torch.ones(batch_size, 1).to(device)
            g_loss = adversarial_loss(discriminator(fake_imgs), valid_labels)
            g_loss.backward()
            opt_g.step()
            
            # 每100个batch打印一次损失
            if i % 100 == 0:
                print(
                    f"[Epoch {epoch}/{200}] [Batch {i}/{len(dataloader)}] "
                    f"[D loss: {d_loss.item():.4f}] [G loss: {g_loss.item():.4f}]"
                )
        
        # 每个epoch保存生成的样本
        save_generated_images(epoch, generator)

训练过程中的关键监控指标：

判别器损失 ：理想情况下应保持在0.5-0.7之间
生成器损失 ：初期可能较高，应逐渐下降
梯度范数 ：可使用 torch.nn.utils.clip_grad_norm_ 控制

5. 常见问题与解决方案

在实际训练GAN时，你可能会遇到以下典型问题：

模式崩溃（Mode Collapse）

现象：生成器只产生有限的几种样本，缺乏多样性。

解决方案 ：

使用小批量判别（Minibatch Discrimination）
尝试不同的损失函数（Wasserstein Loss）
调整学习率（通常降低生成器的学习率）

梯度消失

现象：判别器变得太强，导致生成器无法获得有效梯度。

解决方案 ：

使用LeakyReLU代替ReLU
在判别器中使用Dropout
尝试标签平滑（Label Smoothing）

训练不稳定

现象：损失值剧烈波动，生成质量时好时坏。

稳定训练的技巧 ：

使用Adam优化器时，beta1设为0.5
对生成器和判别器使用不同的学习率
定期保存模型检查点

# 示例：使用梯度裁剪
torch.nn.utils.clip_grad_norm_(generator.parameters(), max_norm=1.0)
torch.nn.utils.clip_grad_norm_(discriminator.parameters(), max_norm=1.0)

6. 结果可视化与评估

训练完成后，我们需要评估生成器的表现。除了目视检查外，还可以使用以下量化指标：

评估方法	实现方式	理想值
Inception Score	使用预训练分类器	越高越好
FID (Frechet Inception Distance)	比较特征分布	越低越好
人工评估	随机抽样检查	多样且真实

可视化生成结果的实用函数：

# utils/visualize.py
import matplotlib.pyplot as plt

def save_generated_images(epoch, generator, n_samples=25):
    z = torch.randn(n_samples, 100).to(device)
    gen_imgs = generator(z).detach().cpu()
    
    fig, axs = plt.subplots(5, 5, figsize=(10,10))
    cnt = 0
    for i in range(5):
        for j in range(5):
            axs[i,j].imshow(gen_imgs[cnt,0,:,:], cmap='gray')
            axs[i,j].axis('off')
            cnt += 1
    fig.savefig(f"images/epoch_{epoch}.png")
    plt.close()

训练过程中观察到的典型进展：

初期（0-20 epoch） ：生成随机噪声
中期（20-100 epoch） ：出现数字轮廓但模糊
后期（100+ epoch） ：生成清晰可辨的数字

7. 高级技巧与优化方向

当基础GAN能够稳定训练后，可以考虑以下进阶优化：

架构改进

使用卷积结构（DCGAN）替代全连接网络
添加自注意力机制（Self-Attention GAN）
尝试渐进式增长（Progressive GAN）

训练策略

采用两时间尺度更新规则（TTUR）
使用谱归一化（Spectral Normalization）
实现经验回放（Experience Replay）

# 示例：在判别器中添加谱归一化
from torch.nn.utils import spectral_norm

class Discriminator(nn.Module):
    def __init__(self):
        super().__init__()
        self.main = nn.Sequential(
            spectral_norm(nn.Linear(784, 1024)),
            nn.LeakyReLU(0.2),
            spectral_norm(nn.Linear(1024, 512)),
            nn.LeakyReLU(0.2),
            spectral_norm(nn.Linear(512, 256)),
            nn.LeakyReLU(0.2),
            spectral_norm(nn.Linear(256, 1))
        )

实际部署考虑

模型量化减小体积
ONNX格式导出
生产环境性能优化

在项目实践中，我发现最影响GAN训练稳定性的三个因素是：学习率设置、网络初始化和数据预处理。使用Adam优化器时，将beta1参数设为0.5而非默认的0.9，能显著改善训练动态。网络权重初始化采用He初始化配合LeakyReLU，可以避免早期梯度消失问题。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

5 分钟跑通第一个 LLM 程序：从零到 Hello AI

AMD开发者中国社区

【大语言模型系列·第 04 篇】推理部署：从实验室到生产——延迟、吞吐与成本的三维优化

AMD开发者中国社区

Ollama 本地大模型快速部署与调用指南

很多开发者在尝试本地运行大语言模型时，往往被繁琐的环境配置劝退。面对复杂的依赖库、版本冲突以及晦涩的命令行参数，不少人还没开始体验模型的能力，就已经在安装阶段耗费了数小时甚至几天时间。其实，本地部署大模型并没有想象中那么困难，只要选对工具链，遵循正确的步骤，即使是零基础的新手也能在几分钟内让模型跑起来。本地运行的最大价值在于数据隐私的绝对掌控和零延迟的响应速度。当你将模型部署在自己的机器上，所有的