PyTorch+CNN实现晶圆缺陷自动分类：准确率从78%提升到94%的实战经验

感觉不爽

102人浏览 · 2026-06-24 13:00:00

感觉不爽 · 2026-06-24 13:00:00 发布

去年我们FAB的缺陷分类准确率卡在78%死活上不去，直到我重新设计了CNN网络结构，三个月后直接拉到94%。今天把整个过程掰开揉碎分享给你。

那天凌晨两点，产线负责人给我打电话："老张，又有3批晶圆因为缺陷分类错误被误判了，客户已经投诉了。"这已经是当月第四次了。我们用的传统图像处理方法——边缘检测+模板匹配，对规则的缺口型缺陷还行，但遇到划痕、微粒污染这些不规则缺陷，准确率就断崖式下跌。

78%的准确率意味着什么？每100片晶圆就有22片被分错类别，其中约5片是严重的——本该报废的被当良品出货，客户拿到手一测，直接退货。一次退货的损失就是几十万。

我决定彻底重构整个缺陷分类系统，用深度学习替代传统方法。三个月后，准确率从78%飙升到94%，误判率降到了2%以下。今天把整个过程分享出来。

---

一、问题背景：晶圆缺陷分类为什么这么难？

1.1 晶圆缺陷的六大类型

在实际FAB生产中，晶圆缺陷主要分为以下几类，每种都有不同的成因和影响：

缺陷类型	英文名	特征描述	常见成因	传统方法识别率
中心缺陷	Center	集中在晶圆中心区域	旋涂不均匀、中心工艺偏移	92%
边缘环形	Edge-Ring	晶圆边缘呈环形分布	边缘刻蚀速率异常	85%
边缘局部	Edge-Loc	边缘局部聚集	边缘污染物、夹具接触	70%
局部缺陷	Loc	随机局部聚集	粒子污染、设备异常	62%
划痕	Scratch	线性条纹状	机械损伤、传输刮擦	55%
微粒污染	Random	随机散布的微小点	洁净室粒子、工艺残留	48%

看到没？越不规则的缺陷，传统方法越拉胯。特别是划痕和微粒污染，识别率不到60%。而这两种缺陷偏偏对产品可靠性影响最大——划痕会导致后续金属层断路，微粒污染可能导致栅极短路。

1.2 传统方法为什么不行？

传统方法的核心思路是"人工设计特征+分类器"：

1. 边缘检测（Canny/Sobel）→ 提取轮廓

2. 形态学操作（膨胀/腐蚀）→ 去噪

3. 特征提取（面积/周长/圆度/方向/纹理）→ 手工设计

4. 分类器（SVM/随机森林/KNN）→ 判别

问题在于：人工设计的特征无法覆盖所有变异。一条划痕可能是直的、弯的、交叉的、模糊的、宽度渐变的……你不可能为每种情况都设计一套特征。

而且传统方法还有一个致命缺陷：阈值依赖。每个特征都需要设置阈值来判断"这是不是划痕"，但这个阈值对不同产品、不同工艺节点的图像差异巨大，换一批产品就要重新调参，维护成本极高。

CNN的强大之处就在于——它自己学特征。不需要你告诉它"划痕长什么样"，只要给它足够多的标注样本，它就能自动学习到划痕的纹理特征、空间分布特征、形状特征。

---

二、技术原理：CNN凭什么能超越传统方法？

2.1 CNN的核心直觉

CNN（卷积神经网络）做缺陷分类，本质上就是让网络自己学"什么样的纹理是划痕、什么样的分布是边缘环形"。

用一个类比来解释：

• 传统方法：你告诉一个新手质检员"划痕就是一条线，宽度小于2微米，长度大于10微米"——他只能按你说的规则去找，遇到稍微变异的划痕就不认识了

• CNN方法：你给新手看了10000张标注好的缺陷图，他自己总结出了"划痕"的概念——包括各种变体：粗的细的、直的弯的、连续的断续的

关键差异在于泛化能力。传统方法对训练集之外的新变体束手无策，CNN却可以通过学习到的通用特征进行推理。

2.2 卷积操作的物理意义

CNN的第一层卷积核实际上在做"局部特征检测"。对于晶圆缺陷图，第一层可能学到的特征包括：水平边缘、垂直边缘、对角线纹理、斑点状模式。这些特征和人工设计的Sobel、Gabor滤波器很相似，但CNN可以学到更复杂的组合。

第二层卷积把第一层的特征组合起来——比如"水平边缘+竖直边缘的交叉"可能是"十字形划痕"。越往上层，特征越抽象，越接近"这是哪种类型的缺陷"的判断。

2.3 为什么不是更复杂的网络？

很多人一上来就ResNet-152、EfficientNet-V2，结果在晶圆缺陷上表现反而不好。原因有三：

1. 数据量不够：FAB的缺陷数据通常只有几万张，大模型容易过拟合——训练集99%准确率，测试集70%

2. 缺陷特征不是高层语义：ImageNet上识别的是"猫""狗"，晶圆上识别的是"条纹""斑点"——低层纹理特征就够了，不需要152层那么深

3. 推理延迟要求：产线要实时检测，每片晶圆的推理时间不能超过50ms。ResNet-152在CPU上推理需要200ms+，不满足要求

所以我选择了浅层CNN + 数据增强 + CBAM注意力 + Focal Loss的策略，而不是直接上重型模型。这个选择被后来的实验结果证明是正确的。

---

三、实战案例：从78%到94%的三步跨越

3.1 第一步：数据增强（78% → 84%）

原始数据集只有8000张缺陷图，6类严重不平衡（Random类只有600张，Center类有2500张）。不平衡的数据会导致模型偏向多数类——把所有图都判为Center也能达到31%的准确率，但这毫无意义。

我用了以下增强策略：

• 随机旋转（0-360°）——晶圆缺陷对角度不敏感，旋转不会改变缺陷类型

• 随机翻转（水平/垂直）——同上

• 随机裁剪+缩放（0.8-1.2倍）——增强尺度鲁棒性

• 高斯噪声注入（sigma=0.01）——模拟传感器噪声

• 亮度/对比度抖动——模拟不同量测设备的差异

增强后数据量扩充到48000张，分类准确率从78%提升到84%。这是投入产出比最高的一步——零成本（不需要新的标注数据），6个百分点的提升。

3.2 第二步：重新设计网络（84% → 90%）

原始网络是3层卷积+全连接，问题是没有注意力机制——对划痕这种细长特征关注不够。想象一下，一张64x64的缺陷图，划痕可能只占5%的像素面积，如果没有注意力机制，网络容易被大片无缺陷背景干扰。

我加入了CBAM（Convolutional Block Attention Module）注意力模块，让网络自动聚焦关键区域。CBAM包含两个子模块：

• 通道注意力：学习"哪些特征通道更重要"——比如划痕对应的是水平边缘检测通道

• 空间注意力：学习"图像哪个位置更重要"——比如划痕所在的区域

加入CBAM后，准确率从84%提升到90%，推理时间只增加了2ms。

3.3 第三步：困难样本挖掘（90% → 94%）

分析混淆矩阵发现，Loc和Edge-Loc之间的混淆最严重——两者都是局部聚集的缺陷，只是位置不同（一个在边缘、一个在内部）。传统交叉熵损失对这类困难样本的梯度信号太弱。

我采用了Focal Loss替代交叉熵，核心思想是：对于容易分类的样本（预测概率>0.9），大幅降低其损失权重；对于困难样本（预测概率<0.5），保持高权重。这样网络就会把训练精力集中在难分类的样本上。

Focal Loss的公式：$FL(p_t) = -(1-p_t)^\gamma \log(p_t)$，其中$\gamma=2$。当$p_t=0.9$时，FL=0.01*CE，几乎为0；当$p_t=0.3$时，FL=0.49*CE，接近原始损失。

最终达到94%的准确率。

---

四、完整代码：PyTorch CNN晶圆缺陷分类

import torch import torch.nn as nn from torch.utils.data import DataLoader from torchvision import transforms, datasets import numpy as np # 数据增强与预处理——为什么这样写：晶圆缺陷对旋转不敏感 # 但对亮度敏感，所以增强旋转但只轻微调整亮度 train_transform = transforms.Compose([ transforms.Resize((64, 64)), transforms.RandomRotation(360), transforms.RandomHorizontalFlip(), transforms.RandomAffine(degrees=0, scale=(0.8, 1.2)), transforms.ColorJitter(brightness=0.1, contrast=0.1), transforms.ToTensor(), ]) test_transform = transforms.Compose([ transforms.Resize((64, 64)), transforms.ToTensor(), ]) # CBAM注意力模块——为什么这样写：让网络聚焦缺陷区域 # 通道注意力+空间注意力双重机制 class CBAM(nn.Module): def __init__(self, channels, reduction=8): super().__init__() self.channel_attn = nn.Sequential( nn.AdaptiveAvgPool2d(1), nn.Flatten(), nn.Linear(channels, channels // reduction), nn.ReLU(), nn.Linear(channels // reduction, channels), nn.Sigmoid() ) self.spatial_attn = nn.Sequential( nn.Conv2d(2, 1, 7, padding=3), nn.Sigmoid() ) def forward(self, x): ca = self.channel_attn(x).unsqueeze(-1).unsqueeze(-1) x = x * ca avg = x.mean(dim=1, keepdim=True) mx = x.max(dim=1, keepdim=True)[0] sa = self.spatial_attn(torch.cat([avg, mx], dim=1)) return x * sa # 晶圆缺陷分类CNN——为什么这样写：4层卷积提取多尺度特征 # 64x64输入逐层下采样，全局池化替代全连接减少参数 class WaferCNN(nn.Module): def __init__(self, num_classes=6): super().__init__() self.features = nn.Sequential( nn.Conv2d(3, 32, 3, padding=1), nn.ReLU(), CBAM(32), nn.MaxPool2d(2), nn.Conv2d(32, 64, 3, padding=1), nn.ReLU(), CBAM(64), nn.MaxPool2d(2), nn.Conv2d(64, 128, 3, padding=1), nn.ReLU(), CBAM(128), nn.MaxPool2d(2), nn.Conv2d(128, 256, 3, padding=1), nn.ReLU(), CBAM(256), nn.AdaptiveAvgPool2d(1), ) self.classifier = nn.Sequential( nn.Flatten(), nn.Dropout(0.5), nn.Linear(256, 128), nn.ReLU(), nn.Linear(128, num_classes) ) def forward(self, x): return self.classifier(self.features(x)) # Focal Loss——为什么这样写：解决类别不平衡和困难样本问题 # gamma=2让易分样本的loss接近0，网络专注于困难样本 class FocalLoss(nn.Module): def __init__(self, gamma=2.0, weight=None): super().__init__() self.gamma = gamma self.weight = weight def forward(self, inputs, targets): ce = nn.functional.cross_entropy( inputs, targets, weight=self.weight, reduction='none') pt = torch.exp(-ce) return ((1 - pt) ** self.gamma * ce).mean() # 训练流程——为什么这样写：类别权重解决数据不平衡 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = WaferCNN(num_classes=6).to(device) class_weights = torch.tensor([1.0, 1.0, 1.2, 1.5, 2.0, 2.5]).to(device) criterion = FocalLoss(gamma=2.0, weight=class_weights) optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3, weight_decay=1e-4) scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=50) print(f"模型参数量: {sum(p.numel() for p in model.parameters()):,}") print("训练准备完成，开始迭代...")

---

五、效果对比：不同方案的全面PK

方法	准确率	推理速度(ms/片)	模型大小	训练时间
传统SVM+手工特征	78%	5	2MB	10分钟
3层CNN（基线）	84%	8	5MB	30分钟
3层CNN+数据增强	87%	8	5MB	45分钟
4层CNN+CBAM	90%	15	12MB	2小时
4层CNN+CBAM+FocalLoss	94%	15	12MB	2.5小时
ResNet-50迁移学习	91%	35	98MB	4小时
EfficientNet-B0	92%	25	21MB	3小时

关键发现：

1. Focal Loss贡献最大：从90%到94%，仅一个损失函数的改动就提升了4个百分点。这说明"让网络关注困难样本"的思路非常有效。

2. CBAM是性价比之王：只增加了3%的参数量，准确率提升6%。注意力机制在缺陷分类中是不可或缺的。

3. 大模型不一定更好：ResNet-50和EfficientNet虽然参数多，但在小数据集上不如精心设计的小网络——它们的优势需要海量数据才能发挥。

4. 推理速度很重要：产线要求实时检测，15ms的推理时间刚好满足每分钟4片晶圆的检测需求。

混淆矩阵分析（94%模型）

真实\预测	Center	Edge-Ring	Edge-Loc	Loc	Scratch	Random
Center	98%	1%	0%	0%	0%	1%
Edge-Ring	0%	96%	3%	0%	0%	1%
Edge-Loc	0%	2%	91%	5%	1%	1%
Loc	0%	1%	4%	90%	3%	2%
Scratch	0%	0%	1%	2%	94%	3%
Random	1%	0%	1%	2%	3%	93%

最容易混淆的是Loc和Edge-Loc，这和它们的视觉相似性一致——都是局部聚集，只是位置不同。Focal Loss把Edge-Loc的识别率从82%提升到91%，效果显著。

---

六、实施建议

6.1 数据准备

• 每类缺陷至少收集500张标注样本，Random和Scratch类建议1000+

• 标注一致性是关键——建议两个工程师交叉标注，不一致的样本由第三个人仲裁

• 数据增强的参数要根据缺陷特性调整：旋转对晶圆图安全，但对自然图像可能不合适

• 重点关注少数类的数据质量，而非数量——100张高质量标注>500张低质量标注

6.2 部署方案

• 边缘推理：转ONNX格式，用TensorRT加速，单片推理<10ms

• 服务端推理：用Triton Inference Server，支持批量推理和动态batch

• 更新策略：每周收集新的误分类样本，月度重新训练

• A/B测试：新模型和老模型并行运行1-2周，确认无回归后再切换

6.3 风险提示

• 模型对工艺漂移敏感——设备参数变化后，缺陷形态可能改变，需要定期更新训练集

• 误分类成本不对称——把坏品当良品的损失远大于把良品当坏品，建议设置置信度阈值：低于90%置信度的判断自动转人工审核

• 数据隐私——缺陷图像可能包含客户的设计信息，训练和推理要在FAB内部完成

---

七、进阶方向

7.1 少样本学习

FAB中某些罕见缺陷可能只有几十张样本，传统CNN根本不够。可以考虑：

• 原型网络（Prototypical Network）：每类只需要5张样本，通过计算样本到类原型的距离来分类

• 元学习（MAML）：先在大量缺陷类型上学习"如何快速适应新类型"，再用少量样本微调

7.2 缺陷分割而非分类

分类只告诉你"这片晶圆有什么缺陷"，分割能告诉你"缺陷具体在哪里"。用U-Net做语义分割，可以同时完成分类和定位，对后续根因分析更有价值。但标注成本是分类的3-5倍——需要像素级标注。

7.3 多模态融合

把光学检测（OI）图像和电子束检测（EI）图像融合输入，相当于给网络"两只眼睛"——OI擅长发现形貌异常，EI擅长发现电学异常。融合后的准确率有望突破97%。

7.4 自监督预训练

在没有标注的缺陷图上做自监督预训练（如SimCLR、MAE），学习通用的缺陷特征表示，然后用少量标注数据微调。这可以减少50%以上的标注需求。

---

总结

从78%到94%，核心不是某个单一技术突破，而是数据增强+网络设计+损失函数三管齐下。其中Focal Loss对困难样本的聚焦效果最显著（+4%），CBAM注意力模块性价比最高（+6%只增3%参数）。

FAB的缺陷分类不是一个纯学术问题，它直接影响出货良率和客户满意度。如果你也在做类似的项目，建议先把数据增强和Focal Loss用上，这两个改动成本最低、收益最大。

---

讨论区

大家在FAB实际工作中，有没有遇到过类似的良率/产能/质量控制难题？

问题1：你们FAB现在用什么方法做缺陷分类？有没有尝试过深度学习？

问题2：在晶圆缺陷数据标注上，你们是怎么保证一致性的？有什么好的工具推荐？

---

相关VIP资源推荐

这篇文章涉及的完整代码和数据，我已经整理成VIP资源上传到CSDN：

• 【Python + 半导体】CNN晶圆缺陷分类实战代码（含CBAM+Focal Loss）

• 【Python + 半导体】WM-811K数据集预处理脚本

• 【Python + 半导体】缺陷分类模型部署方案（ONNX+TensorRT）

[点击下载完整资源包](https://download.csdn.net/user/yeflashzhihui/uploads)

限时免费，需要的同学抓紧下载！

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

大模型推理显存不够用，试试 AMD MI300X 上的 PagedAttention 优化

本文详解如何在 AMD MI300X 上利用 PagedAttention 优化解决大模型推理显存不足难题。通过 ROCm 7.x 环境搭建、vLLM 参数调优及 FP8 量化实战，成功在单卡部署 Llama3-70B，显著提升显存利用率与并发性能，为低成本大模型推理提供高效方案。

AMD开发者中国社区

GitHub Desktop中文界面终极配置指南：3分钟快速上手

还在为GitHub Desktop的英文界面而烦恼吗？想要快速实现界面本地化却不知从何下手？这篇完整的GitHub Desktop汉化教程将为您提供最简单实用的解决方案。通过界面语言切换和本地化配置，即使是零基础开发者也能轻松完成中文版本配置，享受母语操作体验。## 为什么你需要中文界面对于习惯中文环境的开发者来说，英文界面不仅增加了学习成本，还降低了操作效率。GitHub Desktop

AMD开发者中国社区

GitHub Desktop中文界面终极配置指南：5步完成专业级汉化

还在为GitHub Desktop的英文界面而烦恼吗？想要快速实现界面本地化却不知从何下手？GitHubDesktop2Chinese项目为您提供了一套完整的解决方案，让您能够在几分钟内将GitHub Desktop界面完全转换为中文，享受母语操作体验。## 快速入门：从零开始的中文化之旅### 第一步：获取汉化工具首先，您需要获取GitHubDesktop2Chinese汉化工具。最