保姆级教程：用Python手写一个NMS算法（附YOLOv5实战代码）

王爷的大房子

605人浏览 · 2026-05-26 14:26:53

王爷的大房子 · 2026-05-26 14:26:53 发布

从零实现目标检测中的NMS算法：Python实战与YOLOv5集成指南

在计算机视觉领域，目标检测是一个基础而重要的任务。当模型对同一目标产生多个重叠的预测框时，如何筛选出最合适的那个？这就是非极大值抑制（NMS）算法要解决的核心问题。很多初学者虽然理解NMS的概念，但当真正需要自己实现或修改时，往往会遇到各种困惑——边界框的表示方式、IOU的计算细节、处理速度的优化，以及如何在实际框架中替换默认实现。

本文将带你从最基础的NMS实现开始，逐步深入到更高级的变体，最后教你如何在流行的YOLOv5框架中集成自定义的NMS算法。不同于单纯的理论讲解，我们更注重 可运行的代码 和 实际调试经验 ，每个部分都配有可直接测试的Python实现，并解释常见陷阱和优化技巧。

1. NMS基础原理与Python实现

1.1 理解NMS的核心逻辑

NMS算法的本质是解决目标检测中的冗余预测问题。想象一下，当模型对图像中的一只狗产生了多个重叠的边界框时，我们需要保留最可信的那个（通常是置信度最高的），同时抑制其他高度重叠的预测。

标准NMS的处理流程可以分解为以下几步：

按置信度排序 ：将所有预测框按照分类置信度从高到低排序
选取最高分框 ：从未处理的框中选择当前得分最高的作为保留框
计算重叠区域 ：计算该框与剩余所有框的交并比（IOU）
抑制重叠框 ：移除那些IOU超过预设阈值的框（通常0.5-0.7）
循环处理 ：重复步骤2-4直到所有框都被处理

import numpy as np

def calculate_iou(box1, box2):
    """
    计算两个边界框的交并比(IOU)
    box格式: [x1, y1, x2, y2] (左上和右下坐标)
    """
    # 计算交集区域坐标
    x1 = max(box1[0], box2[0])
    y1 = max(box1[1], box2[1])
    x2 = min(box1[2], box2[2])
    y2 = min(box1[3], box2[3])
    
    # 计算交集面积
    inter_area = max(0, x2 - x1 + 1) * max(0, y2 - y1 + 1)
    
    # 计算各自面积
    box1_area = (box1[2] - box1[0] + 1) * (box1[3] - box1[1] + 1)
    box2_area = (box2[2] - box2[0] + 1) * (box2[3] - box2[1] + 1)
    
    # 计算并集面积
    union_area = box1_area + box2_area - inter_area
    
    return inter_area / union_area

注意：边界框坐标的表示方式在不同框架中可能不同。YOLO系列通常使用归一化的中心坐标(x_center, y_center, width, height)，而这里我们使用更直观的(x1, y1, x2, y2)格式。实际应用中需要根据具体情况进行转换。

1.2 基础NMS的完整实现

有了IOU计算的基础，我们可以实现完整的NMS算法。下面的实现使用了纯Python和NumPy，便于理解和修改：

def nms(boxes, scores, iou_threshold=0.5):
    """
    基础NMS实现
    参数:
        boxes: NumPy数组，形状为(N,4)，表示N个边界框
        scores: NumPy数组，形状为(N,)，表示每个框的置信度
        iou_threshold: IOU阈值，超过此值的框将被抑制
    返回:
        keep_indices: 保留框的索引列表
    """
    # 按分数降序排序并获取索引
    sorted_indices = np.argsort(scores)[::-1]
    
    keep = []
    while len(sorted_indices) > 0:
        # 取当前最高分的框
        best_idx = sorted_indices[0]
        keep.append(best_idx)
        
        # 计算与剩余框的IOU
        ious = []
        for idx in sorted_indices[1:]:
            iou = calculate_iou(boxes[best_idx], boxes[idx])
            ious.append(iou)
        
        # 筛选出IOU低于阈值的框
        sorted_indices = sorted_indices[1:][np.array(ious) < iou_threshold]
    
    return keep

这个实现虽然简单，但已经包含了NMS的核心逻辑。在实际应用中，我们还需要考虑几个关键点：

边界情况处理 ：当没有框或只有一个框时的处理
性能优化 ：当前实现对于大量框效率不高，可以使用向量化操作优化
数值稳定性 ：处理零面积或无效框的情况

2. NMS的高级变体与优化实现

2.1 Soft-NMS：更柔和的抑制策略

传统NMS的一个明显缺点是它对重叠框采取"一刀切"的策略——要么完全保留，要么完全丢弃。这在密集物体场景中可能导致漏检。Soft-NMS通过降低而非完全移除重叠框的分数来解决这个问题。

Soft-NMS有两种主要变体：

线性加权 ：重叠框的分数按IOU线性衰减
高斯加权 ：使用高斯函数对分数进行更平滑的衰减

def soft_nms(boxes, scores, iou_threshold=0.5, sigma=0.5, method='gaussian'):
    """
    Soft-NMS实现
    参数:
        boxes: NumPy数组，形状为(N,4)
        scores: NumPy数组，形状为(N,)
        iou_threshold: IOU阈值
        sigma: 高斯函数的标准差
        method: 'linear'或'gaussian'
    返回:
        keep_indices: 保留框的索引列表
    """
    N = len(boxes)
    indices = np.arange(N)
    
    for i in range(N):
        # 找到当前最高分的框
        max_pos = i + np.argmax(scores[i:])
        boxes[[i, max_pos]] = boxes[[max_pos, i]]
        scores[[i, max_pos]] = scores[[max_pos, i]]
        indices[[i, max_pos]] = indices[[max_pos, i]]
        
        # 计算与后续框的IOU
        ious = np.array([calculate_iou(boxes[i], boxes[j]) 
                        for j in range(i+1, N)])
        
        # 根据方法调整分数
        if method == 'linear':
            decay = np.where(ious > iou_threshold, 
                           1 - ious, 
                           np.ones_like(ious))
        elif method == 'gaussian':
            decay = np.exp(-(ious**2)/sigma)
        
        # 应用衰减
        scores[i+1:] *= decay
    
    # 筛选最终保留的框
    keep = indices[scores > 0.01]  # 保留分数高于阈值的框
    return keep

提示：在实际应用中，Soft-NMS通常能提升密集场景下的检测性能，但会增加计算开销。可以根据具体场景在精度和速度之间权衡。

2.2 向量化加速实现

基础实现中的循环计算在框数量较多时会成为性能瓶颈。我们可以利用NumPy的向量化操作来显著提升计算速度：

def vectorized_nms(boxes, scores, iou_threshold=0.5):
    """
    向量化加速的NMS实现
    """
    # 按分数降序排序
    order = np.argsort(scores)[::-1]
    boxes = boxes[order]
    scores = scores[order]
    
    areas = (boxes[:, 2] - boxes[:, 0] + 1) * \
            (boxes[:, 3] - boxes[:, 1] + 1)
    
    keep = []
    while boxes.shape[0] > 0:
        # 取当前最高分的框
        keep.append(order[0])
        
        if boxes.shape[0] == 1:
            break
            
        # 计算与剩余框的IOU
        xx1 = np.maximum(boxes[0, 0], boxes[1:, 0])
        yy1 = np.maximum(boxes[0, 1], boxes[1:, 1])
        xx2 = np.minimum(boxes[0, 2], boxes[1:, 2])
        yy2 = np.minimum(boxes[0, 3], boxes[1:, 3])
        
        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h
        
        iou = inter / (areas[0] + areas[1:] - inter)
        
        # 筛选IOU低于阈值的框
        mask = iou <= iou_threshold
        boxes = boxes[1:][mask]
        scores = scores[1:][mask]
        areas = areas[1:][mask]
        order = order[1:][mask]
    
    return keep

这种实现方式避免了显式的Python循环，利用NumPy的广播机制一次性计算所有IOU，在大规模数据上可以获得数倍的性能提升。

3. 在YOLOv5中集成自定义NMS

3.1 理解YOLOv5的推理流程

YOLOv5的推理过程大致分为以下几个步骤：

前向传播 ：输入图像通过模型得到原始预测
后处理 ：对原始预测进行解码、筛选和NMS处理
结果输出 ：生成最终的检测框和类别

NMS处理发生在后处理阶段，具体在 non_max_suppression 函数中实现。YOLOv5默认使用PyTorch实现的NMS，但我们可以替换为自己的实现。

3.2 修改YOLOv5的NMS实现

要替换YOLOv5的默认NMS，我们需要了解其预测结果的格式。YOLOv5模型的原始输出是一个形状为 (batch_size, num_anchors, 5 + num_classes) 的张量，其中：

前4个元素是边界框坐标（中心x, 中心y, 宽度, 高度）
第5个元素是物体置信度
其余是类别概率

以下是如何在YOLOv5中集成我们自定义的NMS：

import torch

def custom_nms(prediction, conf_thres=0.25, iou_thres=0.45):
    """
    替换YOLOv5默认NMS的自定义实现
    参数:
        prediction: 模型原始输出，形状为(batch_size, num_anchors, 5 + num_classes)
        conf_thres: 置信度阈值
        iou_thres: IOU阈值
    返回:
        与原始YOLOv5 NMS相同格式的结果
    """
    # 将预测从torch转为numpy
    pred_np = prediction.detach().cpu().numpy()
    
    # 初始化结果列表
    output = [None] * len(pred_np)
    
    for i, pred in enumerate(pred_np):
        # 过滤低置信度预测
        mask = pred[:, 4] >= conf_thres
        pred = pred[mask]
        
        if not pred.shape[0]:
            continue
            
        # 计算类别分数和框坐标
        class_conf = np.max(pred[:, 5:], axis=1, keepdims=True)
        class_pred = np.argmax(pred[:, 5:], axis=1, keepdims=True)
        
        # 转换为(x1, y1, x2, y2)格式
        boxes = xywh2xyxy(pred[:, :4])
        
        # 使用我们实现的NMS
        keep = vectorized_nms(boxes, pred[:, 4] * class_conf.flatten(), iou_thres)
        
        # 组装最终结果
        if keep:
            output[i] = torch.from_numpy(
                np.concatenate([
                    boxes[keep],
                    pred[keep, 4:5],
                    class_conf[keep],
                    class_pred[keep].astype(np.float32)
                ], axis=1)
            )
    
    return output

def xywh2xyxy(x):
    """
    将(center_x, center_y, width, height)转换为(x1, y1, x2, y2)
    """
    y = np.zeros_like(x)
    y[:, 0] = x[:, 0] - x[:, 2] / 2  # x1
    y[:, 1] = x[:, 1] - x[:, 3] / 2  # y1
    y[:, 2] = x[:, 0] + x[:, 2] / 2  # x2
    y[:, 3] = x[:, 1] + x[:, 3] / 2  # y2
    return y

3.3 性能对比与优化建议

在实际应用中，替换NMS实现时需要考虑几个关键因素：

速度：PyTorch原生NMS通常比纯Python实现更快
精度：Soft-NMS可能提升密集场景下的检测精度
灵活性 ：自定义实现可以更容易地添加特殊逻辑

以下是一些优化建议：

JIT编译 ：使用Numba或PyTorch JIT来加速Python实现
混合精度 ：在支持GPU的情况下使用半精度计算
批处理 ：优化实现以支持批量处理多个图像

4. 常见问题与调试技巧

4.1 NMS实现中的典型错误

在实现NMS时，开发者常会遇到以下问题：

边界框格式混淆 ：不同框架使用不同的表示方式（xywh vs xyxy）
IOU计算错误 ：未正确处理无重叠框的情况（面积为负）
分数排序问题 ：未正确保持框与分数的对应关系
阈值选择不当 ：过高的IOU阈值导致漏检，过低则导致重复框

4.2 调试与验证方法

为了验证NMS实现的正确性，可以采用以下方法：

可视化测试 ：在简单测试案例上绘制处理前后的框
单元测试 ：编写针对特定场景的测试用例
对比验证 ：与已知正确实现（如PyTorch的NMS）的结果对比

def test_nms_implementation():
    # 创建测试数据 - 两个高度重叠的框和一个不重叠的框
    boxes = np.array([
        [100, 100, 200, 200],  # 高分数框
        [110, 110, 210, 210],  # 与第一个高度重叠
        [300, 300, 400, 400]   # 完全不重叠
    ])
    scores = np.array([0.9, 0.8, 0.7])
    
    # 应用NMS
    keep = vectorized_nms(boxes, scores, iou_threshold=0.5)
    
    # 验证结果
    assert len(keep) == 2  # 应保留高分数框和不重叠框
    assert 0 in keep  # 高分数框被保留
    assert 2 in keep  # 不重叠框被保留
    assert 1 not in keep  # 重叠框被抑制
    
    print("测试通过！")

test_nms_implementation()

4.3 性能优化实战

当NMS成为推理瓶颈时，可以考虑以下优化策略：

提前过滤 ：先使用高置信度阈值过滤明显无效的框
分治策略 ：将图像分成网格，分别应用NMS后再合并
近似计算 ：使用简化的IOU计算方法
硬件加速 ：利用GPU或专用指令集加速计算

def fast_approximate_iou(box1, box2):
    """
    近似IOU计算，牺牲少量精度换取速度
    """
    # 计算中心点距离和面积比
    center1 = [(box1[0]+box1[2])/2, (box1[1]+box1[3])/2]
    center2 = [(box2[0]+box2[2])/2, (box2[1]+box2[3])/2]
    distance = ((center1[0]-center2[0])**2 + (center1[1]-center2[1])**2)**0.5
    
    area1 = (box1[2]-box1[0])*(box1[3]-box1[1])
    area2 = (box2[2]-box2[0])*(box2[3]-box2[1])
    area_ratio = min(area1, area2)/max(area1, area2)
    
    # 基于距离和面积比的启发式IOU估计
    return max(0, 1 - distance/100 - (1-area_ratio))

在实际项目中，NMS的选择和实现需要根据具体需求进行权衡。对于大多数应用场景，框架内置的NMS已经足够好，但在需要特殊处理或优化的情况下，理解其原理并能够自定义实现是非常有价值的技能。

亚马逊云科技技术品牌专区

更多推荐

主动推理-人工海马

2026年07月04日 00:21发言人00:00制造能够思考的机器是人类长久以来的梦想，但这到底意味着什么呢？智能的一个显著特性是能够泛化知识，并灵活地将其应用于新情况。这种泛化确实是现代机器学习的核心问题之一。在这段视频中，我们将探讨如何汲取海马体负责记忆和导航的大脑结构的生物学组织，来构建一个能够学习构建抽象和泛化的计算模型。我们将探索这个模型带给我们关于大脑自身及人工智能领域的启示。发言人

亚马逊云科技技术品牌专区

Java分布式架构设计方法

服务拆分后，服务间的通信成为关键。事件驱动架构是另一种有效解耦和数据同步的方式，服务通过发布/订阅领域事件进行通信，借助Apache Kafka或RabbitMQ等消息中间件，可以实现事件的可靠传递与异步处理，提升系统整体响应能力。从业务拆分出发，选择恰当的通信与治理模式，妥善处理数据一致性，并构建完善的运维支撑体系。随着云原生理念的深入，Serverless、Service Mesh等新技术也在