从‘猫狗大战’到图像生成：用PyTorch复现经典DCGAN，打造你的第一个AI画师

本文详细介绍了如何使用PyTorch实现经典的DCGAN模型，从理论原理到实战代码一步步教你打造AI画师。文章涵盖DCGAN的核心改进、PyTorch环境配置、模型架构设计、训练技巧以及结果评估方法，帮助读者掌握生成对抗网络在图像生成领域的应用。

王若然

475人浏览 · 2026-05-28 14:23:00

王若然 · 2026-05-28 14:23:00 发布

从‘猫狗大战’到图像生成：用PyTorch复现经典DCGAN，打造你的第一个AI画师

当你在社交媒体上看到那些以假乱真的虚拟人脸或风格独特的动漫头像时，是否好奇它们是如何被创造出来的？这背后往往离不开一种名为DCGAN的深度学习模型。作为GAN（生成对抗网络）家族中最经典的变体之一，DCGAN通过引入卷积神经网络，让AI生成的图像质量实现了质的飞跃。本文将带你用PyTorch一步步构建一个能够生成逼真图像的DCGAN模型，无论是人脸照片还是动漫角色都不在话下。

1. DCGAN的核心改进与设计原则

DCGAN（Deep Convolutional GAN）在原始GAN的基础上做出了几项关键改进，这些改进不仅提升了生成图像的质量，也大大增强了训练的稳定性。让我们先来看看这些核心设计原则：

1.1 卷积层的引入

与原始GAN使用全连接层不同，DCGAN完全基于卷积操作构建。这种设计带来了几个显著优势：

局部感受野 ：卷积层能够捕捉图像的局部特征，这对于生成具有空间相关性的数据（如图像）至关重要
参数共享 ：卷积核在图像上滑动时共享参数，大幅减少了模型参数量
层次化特征提取 ：通过多层卷积，模型可以自动学习从低级到高级的图像特征

1.2 关键架构设计

DCGAN论文中提出了几个被证明非常有效的架构选择：

# 生成器的典型结构示例
generator = nn.Sequential(
    # 输入是100维的噪声向量
    nn.ConvTranspose2d(100, 512, 4, 1, 0, bias=False),
    nn.BatchNorm2d(512),
    nn.ReLU(True),
    # 上采样过程
    nn.ConvTranspose2d(512, 256, 4, 2, 1, bias=False),
    nn.BatchNorm2d(256),
    nn.ReLU(True),
    # 输出3通道的64x64图像
    nn.ConvTranspose2d(256, 3, 4, 2, 1, bias=False),
    nn.Tanh()
)

1.3 BatchNorm的重要性

批量归一化（Batch Normalization）是DCGAN成功的关键因素之一：

解决内部协变量偏移问题，加速训练收敛
允许使用更高的学习率
对初始化不那么敏感
在一定程度上缓解了模式崩溃问题

注意：在判别器的最后一层和生成器的输出层不应使用BatchNorm，这会损害模型性能。

2. 实战准备：环境配置与数据处理

2.1 PyTorch环境搭建

推荐使用conda创建独立的Python环境：

conda create -n dcgan python=3.8
conda activate dcgan
pip install torch torchvision torchaudio
pip install matplotlib numpy pillow

2.2 数据集选择与预处理

根据你的生成目标，可以选择不同的数据集：

数据集	特点	适用场景	下载地址
CelebA	20万张名人脸部图像	人脸生成	官网链接
Anime Faces	6万张高质量的动漫角色头像	二次元图像生成	Kaggle
LSUN Bedroom	卧室场景图像	室内场景生成	LSUN官网

数据预处理的关键步骤：

尺寸统一化 ：将所有图像调整为相同尺寸（通常64x64或128x128）
像素值归一化 ：将像素值从[0,255]映射到[-1,1]
数据增强 （可选）：随机水平翻转、轻微旋转等

transform = transforms.Compose([
    transforms.Resize(64),
    transforms.CenterCrop(64),
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

3. 模型架构详解与PyTorch实现

3.1 生成器设计

DCGAN的生成器使用转置卷积（Transposed Convolution）实现上采样：

class Generator(nn.Module):
    def __init__(self, ngpu=1):
        super(Generator, self).__init__()
        self.ngpu = ngpu
        self.main = nn.Sequential(
            # 输入是Z，进入全连接
            nn.ConvTranspose2d(100, 512, 4, 1, 0, bias=False),
            nn.BatchNorm2d(512),
            nn.ReLU(True),
            # 当前状态尺寸: (512) x 4 x 4
            nn.ConvTranspose2d(512, 256, 4, 2, 1, bias=False),
            nn.BatchNorm2d(256),
            nn.ReLU(True),
            # 当前状态尺寸: (256) x 8 x 8
            nn.ConvTranspose2d(256, 128, 4, 2, 1, bias=False),
            nn.BatchNorm2d(128),
            nn.ReLU(True),
            # 当前状态尺寸: (128) x 16 x 16
            nn.ConvTranspose2d(128, 64, 4, 2, 1, bias=False),
            nn.BatchNorm2d(64),
            nn.ReLU(True),
            # 当前状态尺寸: (64) x 32 x 32
            nn.ConvTranspose2d(64, 3, 4, 2, 1, bias=False),
            nn.Tanh()
            # 最终状态尺寸: (3) x 64 x 64
        )

    def forward(self, input):
        return self.main(input)

3.2 判别器设计

判别器使用常规卷积层逐步下采样图像：

class Discriminator(nn.Module):
    def __init__(self, ngpu=1):
        super(Discriminator, self).__init__()
        self.ngpu = ngpu
        self.main = nn.Sequential(
            # 输入是 (3) x 64 x 64
            nn.Conv2d(3, 64, 4, 2, 1, bias=False),
            nn.LeakyReLU(0.2, inplace=True),
            # 状态尺寸: (64) x 32 x 32
            nn.Conv2d(64, 128, 4, 2, 1, bias=False),
            nn.BatchNorm2d(128),
            nn.LeakyReLU(0.2, inplace=True),
            # 状态尺寸: (128) x 16 x 16
            nn.Conv2d(128, 256, 4, 2, 1, bias=False),
            nn.BatchNorm2d(256),
            nn.LeakyReLU(0.2, inplace=True),
            # 状态尺寸: (256) x 8 x 8
            nn.Conv2d(256, 512, 4, 2, 1, bias=False),
            nn.BatchNorm2d(512),
            nn.LeakyReLU(0.2, inplace=True),
            # 状态尺寸: (512) x 4 x 4
            nn.Conv2d(512, 1, 4, 1, 0, bias=False),
            nn.Sigmoid()
        )

    def forward(self, input):
        return self.main(input).view(-1)

3.3 权重初始化

正确的初始化对GAN训练至关重要：

def weights_init(m):
    classname = m.__class__.__name__
    if classname.find('Conv') != -1:
        nn.init.normal_(m.weight.data, 0.0, 0.02)
    elif classname.find('BatchNorm') != -1:
        nn.init.normal_(m.weight.data, 1.0, 0.02)
        nn.init.constant_(m.bias.data, 0)

# 应用初始化
netG.apply(weights_init)
netD.apply(weights_init)

4. 训练技巧与实战经验

4.1 损失函数与优化器选择

DCGAN通常使用二元交叉熵损失（BCELoss），但实际训练中有几个关键点：

使用Adam优化器而非SGD
设置较低的学习率（通常0.0002）
对生成器和判别器使用不同的学习率有时效果更好

criterion = nn.BCELoss()
optimizerD = optim.Adam(netD.parameters(), lr=0.0002, betas=(0.5, 0.999))
optimizerG = optim.Adam(netG.parameters(), lr=0.0002, betas=(0.5, 0.999))

4.2 训练流程设计

GAN训练需要交替更新生成器和判别器：

训练判别器 ：
- 用真实图像计算损失并反向传播
- 用生成图像计算损失并反向传播
- 更新判别器参数
训练生成器 ：
- 用判别器对生成图像的评分计算损失
- 更新生成器参数

for epoch in range(num_epochs):
    for i, data in enumerate(dataloader, 0):
        # 训练判别器
        netD.zero_grad()
        # 真实图像
        real_images = data[0].to(device)
        batch_size = real_images.size(0)
        label = torch.full((batch_size,), real_label, device=device)
        output = netD(real_images)
        errD_real = criterion(output, label)
        errD_real.backward()
        # 生成图像
        noise = torch.randn(batch_size, 100, 1, 1, device=device)
        fake_images = netG(noise)
        label.fill_(fake_label)
        output = netD(fake_images.detach())
        errD_fake = criterion(output, label)
        errD_fake.backward()
        errD = errD_real + errD_fake
        optimizerD.step()

        # 训练生成器
        netG.zero_grad()
        label.fill_(real_label)  # 生成器希望判别器将生成图像判为真
        output = netD(fake_images)
        errG = criterion(output, label)
        errG.backward()
        optimizerG.step()

4.3 常见问题与解决方案

模式崩溃（Mode Collapse） ：生成器只生成有限的几种样本，缺乏多样性。解决方法包括：

使用小批量判别（Mini-batch Discrimination）
尝试不同的损失函数（如Wasserstein Loss）
调整学习率和批大小

训练不稳定 ：表现为损失值剧烈波动。可以尝试：

使用梯度裁剪（Gradient Clipping）
调整判别器和生成器的更新频率
使用标签平滑（Label Smoothing）

提示：保存训练过程中的生成图像样本非常有用，可以直观观察模型进步。建议每100-200个batch保存一次生成结果。

5. 结果评估与模型优化

5.1 定量评估指标

虽然GAN生成的图像质量主观性很强，但仍有一些量化指标：

指标名称	说明	实现难度
Inception Score (IS)	使用预训练分类器评估生成图像的多样性和质量	中等
Fréchet Inception Distance (FID)	比较真实和生成图像的特征分布距离	较高
人工评估	让人类评估者判断图像真实性	低

5.2 可视化监控

在训练过程中实时监控生成效果至关重要：

def save_sample_images(epoch, fixed_noise):
    with torch.no_grad():
        fake = netG(fixed_noise).detach().cpu()
    fig = plt.figure(figsize=(8,8))
    for i in range(64):
        plt.subplot(8,8,i+1)
        plt.imshow(fake[i].permute(1,2,0)*0.5+0.5)
        plt.axis('off')
    plt.savefig(f'generated_samples_epoch_{epoch}.png')
    plt.close()

5.3 超参数调优

影响DCGAN性能的关键超参数：

学习率 ：通常在0.0001到0.0005之间
批大小 ：一般64-256，取决于显存容量
噪声维度 ：通常100维，但可以尝试64或128
优化器参数 ：Adam的beta1通常设为0.5而非默认的0.9

在CelebA数据集上训练约10个epoch后，你应该能看到初步可辨认的人脸图像。完整训练通常需要50-100个epoch，具体取决于数据集复杂度和模型规模。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

PyTorch深度学习实战（54）——使用TorchScript和ONNX导出通用PyTorch模型

AMD开发者中国社区

基于vLLM部署Gemma-4-E2B多模态大模型和调用API 服务

基于vLLM的推理引擎大幅提升模型响应速度，FastAPI接口可直接集成到业务系统中，适用于智能问答、图片分析、多模态交互等实际应用场景。多模态大模型，实现图片+文本的多模态问答功能，并通过FastAPI封装为可视化API服务，最终完成本地接口测试。服务启动后，自动加载Processor和Gemma模型到GPU，加载完成后可接收外部请求。成功部署Google Gemma-4-E2B-it多模态大模

AMD开发者中国社区

ESXi 支持哪些 GPU 直通？NVIDIA/AMD 全系列兼容与配置指南

GPU 直通（PCIe Passthrough）是 VMware ESXi 提供的硬件虚拟化技术，通过直接将物理 GPU 设备分配给单台虚拟机独占使用，绕过 ESXi 虚拟化层的资源调度，让虚拟机获得完整的 GPU 算力与功能支持，性能损耗低于 5%，可实现与物理机几乎一致的运行体验。ESXi 对 GPU 直通的支持非常完善，核心兼容型号为 NVIDIA V100/A100/RTX 全系列和 AM