登录社区云,与社区用户共同成长
邀请您加入社区
通过以上的改进方法,我们成功提升了模型的表现。这只是一个开始,未来还有更多优化和技术深挖的空间。在这里,我想隆重向大家推荐我的专栏——<YOLO26改进-论文涨点——点击跳转看所有内容,关注不迷路!这个专栏专注于前沿的深度学习技术,特别是目标检测领域的最新进展,不仅包含对YOLO26的深入解析和改进策略,还会定期更新来自各大顶会(如CVPR、NeurIPS等)的论文复现和实战分享。为什么订阅我的专
本文介绍了如何将YOLO26的上采样模块替换为DSUB来提升特征提取效果。主要内容包括:1)DSUB模块的代码实现步骤,包括新建模块文件、修改初始化文件、添加配置文件等;2)在YOLO26中集成DSUB的具体方法,包括模型注册和训练配置;3)改进后的模型性能分析,展示了GFLOPs的变化;4)进阶建议,如结合其他注意力机制进一步优化;5)完整代码分享。该教程详细说明了从理论到实践的完整流程,即使是
1️⃣ 明确任务(检测什么)2️⃣ 获取数据(找 or 自制)3️⃣ 标注数据(YOLO格式)4️⃣ 划分数据集5️⃣ 写data.yaml6️⃣ 训练模型7️⃣ 评估效果👉数据质量 > 模型本身。
本教程详细介绍了如何将YOLO26的主干网络替换为RMT特征提取模块。主要内容包括:1) RMT模块的原理介绍;2) 分步骤实现代码修改,包括添加RMT.py文件、修改init.py、创建yaml配置文件、在task.py中注册模块;3) 提供了完整的可执行代码;4) 展示了改进前后的GFLOPs对比;5) 建议进一步结合其他注意力机制或损失函数优化模型。通过该改进方案,读者可以轻松实现YOLO2
这篇文章介绍了如何使用C#和ONNX Runtime实现车牌识别系统,主要包含以下内容: 系统架构设计:采用YOLOv8模型进行车牌检测和字符识别,通过流水线处理实现从图像输入到车牌号码输出的完整流程。 开发环境配置:需要Visual Studio 2022、.NET 6.0+环境,并安装必要的NuGet包(ONNX Runtime、OpenCvSharp等)。 模型准备:提供预训练的车牌检测和字
大家好,最近在做一个无人机航拍目标检测的项目,遇到了一个非常头疼的问题:同样是检测车辆,高空俯拍时车辆只有十几个像素点,低空近距离拍摄时车辆却能占据大半个画面。YOLOv10虽然很强,但在这种极端尺度变化场景下还是经常翻车——要么大目标框不准,要么小目标直接漏检。网上查了很多资料,有人用多尺度训练,有人用特征金字塔增强,效果都有但不明显。后来看到一篇论文提到“随机形状训练”,抱着试一下的心态实现了
大家好,我是老张,做了三年多目标检测的算法工程师。今天想和大家聊聊一个比较头疼但特别有意思的问题——小目标检测,以及我是怎么在YOLOv10上通过一种“区域感知数据增强”的方法,把模型在小目标上的泛化能力硬生生提上去的。先说说背景吧。上个月接到一个项目,需要在无人机航拍的图像里检测行人、车辆和交通标识。数据集拿到手一看,好家伙,1024×1024的图像里,很多目标的尺寸只有十几个像素点,甚至更小。
大家好,最近在做目标检测项目时遇到了一个头疼的问题:模型训练到后期,loss死活降不下去,mAP卡在某个阈值动弹不得。其实这就是典型的难例挖掘问题——模型已经把简单的样本都学得差不多了,剩下的都是“硬骨头”。传统的hard negative mining虽然有效,但容易让模型在训练初期就陷入局部最优解。经过一段时间的挣扎和调研,我决定在YOLOv10的基础上引入课程学习(Curriculum Le
大概两个月前,我在做一个工业缺陷检测的项目,手头有大量的标注数据,但那些数据都是在实验室理想光照条件下采集的。真到了工厂现场,光线变化、背景杂乱、相机角度偏移,之前训练好的模型直接掉点30多个AP。重新标注现场数据?一张图标注成本三块钱,一万张就是三万块,还不算人工审核的时间成本。后来我翻了好多论文,什么CycleGAN、DA Faster RCNN、DDC方法都试了一遍,效果是有,但总觉得差点意
最近在做无人机航拍目标检测的项目,遇到了一个老生常谈的问题:模型在源域(比如COCO、VisDrone)上训练得再好,一部署到实际场景(不同天气、不同高度、不同传感器)就崩。换数据集重新标注?成本太高。直接做Domain Adaptation?传统方法在YOLO这种one-stage检测器上落地效果又不理想。后来在arXiv上刷到几篇关于多尺度特征对齐的文章,结合YOLOv10本身的多尺度结构,我
你可能会问:干嘛不直接把学生的权重复制给教师?反复复制不行吗?这个问题我踩过坑。如果频繁把学生权重直接赋给教师,相当于学生把自己刚学到的“噪音”也传给了教师。教师模型就会跟着学生一起震荡,失去“稳定监督”的意义。EMA的精髓在于它引入了动量系数α(通常取0.999或0.99):text每个训练步,教师只从学生那里吸收很小一部分更新。这样一来,教师保留了长期记忆,对局部波动的容忍性更强。这就是为什么
大家好,最近在做一个工业缺陷检测的项目,遇到了一个很头疼的问题——样本不平衡。我们的数据集里,正常样本占了85%,剩下的15%分散在6种缺陷类别中,最少的划痕类只占不到1%。直接用YOLOv10训练,模型直接“摆烂”,绝大多数缺陷都检测不到,mAP只有0.32。试过过采样、欠采样、Focal Loss、GHM Loss,效果都不太理想。过采样导致严重的过拟合,Focal Loss在极度不平衡下两个
去年我接了一个油库周界安防的项目,甲方要求实现24小时无人化入侵检测。起初我们用纯视觉方案,海康的摄像头加YOLOv8,白天效果还行,一到晚上或者起雾天,误报率和漏报率直接起飞。甲方运维老哥天天半夜被电话吵醒,差点没把我拉黑。后来我们引入了(DFOS)作为补充特征,配合改进的YOLOv10,总算把这事搞定了。这篇文章就把这套方案的完整实现过程写出来,包括数据集怎么造、模型怎么改、代码怎么写,希望对
去年年底接手了一个水下机器人自主避障的项目,甲方要求在水下浑浊环境中识别沉船、管道、礁石等目标。说实话,一开始我是想直接用YOLOv8的,但恰逢YOLOv10刚发布不久,抱着尝鲜的心态试了一下,结果发现推理速度确实提升明显,而且在小目标检测上比v8强了不少。折腾了两个月,踩了不少坑,今天就把这套从声呐图像预处理到YOLOv10改进的完整方案分享出来。先给心急的朋友看一眼最终效果:在我们自建的侧扫声
透明物体检测一直是计算机视觉领域的老大难问题。玻璃杯、塑料瓶、透明包装纸这些东西,普通RGB相机拍出来基本就靠猜——反射、折射、背景干扰,模型经常把透明杯子和后面的桌布当成一坨东西。我之前做工业质检项目的时候,产线上要检测透明玻璃瓶盖有没有盖好,试了YOLOv5、YOLOv8,精度死活上不去,最高才78%的mAP。偏振。透明物体对偏振光的响应特性跟不透明物体完全不一样。这篇文章我详细讲一下怎么把偏
比如说,在一个检测车辆的任务中,如果模型把一辆真实存在的车正确检测出来了,这就是一个 TP;这些概念在评估目标检测模型的性能时非常重要,基于它们可以计算出各种评估指标,如准确率、召回率、F1 值等,以全面衡量模型的检测效果。:指被错误地检测为正例的负例样本数量,也就是误报。举例来说,模型把一个本不存在目标物体的区域错误地判断为存在目标物体。:指被错误地检测为负例的正例样本数量,也就是漏报。例如,模
Java与YOLO结合在工业视觉领域应用广泛,但面临解码效率低、内存管理差、推理速度慢等性能瓶颈。本文提出全链路优化方案:1)采用FFmpeg硬件加速解码,将1080P视频解码速度提升至1-2ms/帧;2)设计DirectByteBuffer内存池减少GC开销;3)实现零拷贝数据传输;4)优化推理引擎配置;5)构建多级流水线并行处理架构。通过硬件加速解码、内存池管理、并行计算等技术组合,最终实现单
推理 = 使用已经训练好的模型训练 = 生成、优化得到可用的模型学习 AI,本质就是学习推理和训练全流程中遇到的各类问题。
本项目是一个面向钢材表面缺陷检测场景的深度学习应用系统,围绕 YOLOv8 完成了从数据集组织、模型训练、结果评估,到桌面端检测系统开发与功能集成的完整流程。项目以 NEU-DET 钢材表面缺陷数据集为基础,训练得到钢材缺陷检测模型,并基于 PyQt6 开发了可视化检测系统,支持图片识别、视频识别、摄像头实时识别、检测历史管理、模型参数管理和训练指标展示等功能。
本文介绍了一个基于Ultralytics框架扩展的工程,支持通过切换YAML配置文件快速对比不同网络结构在语义分割和YOLO系列模型中的表现。工程支持多种主流模型,包括UNet、DeepLabV3+等语义分割模型和YOLOv8-YOLO26等目标检测模型。重点展示了如何将论文《ISGLNet》中的ACAB(通道+空间重标定)注意力模块集成到YOLO26中,详细说明了模块导入、注册和配置的五个步骤。
最近在做智慧城市的项目,被密集场景下的目标检测折磨得不轻。停车场里密密麻麻的车、商场里人来人往的人群、还有显微镜下的细胞图像,YOLOv10在这些场景下表现总是不尽如人意——漏检严重,尤其是重叠目标,小目标更是直接“隐身”。网上搜了一圈,发现大家都遇到类似的问题。有人提议增大输入分辨率,但显存扛不住;有人建议用更大的模型,但实时性就没了。后来我翻了翻Transformer在目标检测中的应用,发现一
大家好,我是一名边缘计算方向的研究生,最近在做一个无人机视觉识别的项目,需要把YOLOv10部署到Jetson Orin NX上。模型精度和推理速度的平衡折磨了我快两个月,最后在4比特整型量化上找到了突破口。今天就把踩过的坑和优化经验分享出来,希望对有类似需求的朋友有帮助。为什么选择4比特量化?先说说背景。YOLOv10官方权重是FP32的,在Jetson Orin NX上跑640x640输入,大
大家好,最近在做模型轻量化的时候踩了不少坑,今天想把一个我觉得效果还不错的方法分享出来——层自适应幅度剪枝在YOLOv10上的应用。这个方法我们跑了好几个月,中间各种调参和debug,总算整理出一套比较稳定的方案。先交代一下背景。我们团队主要做边缘端目标检测,设备是Jetson Orin和树莓派这种算力有限的平台。YOLOv10确实快,但原版nano模型部署上去推理延迟大概在30ms左右,虽然勉强
大家好,我又来分享YOLOv10的改进经验了。最近在做一个嵌入式设备上的目标检测项目,树莓派4B跑原版YOLOv10-nano还是有点吃力,推理一帧要将近200ms,完全达不到实时要求。老板催得紧,我又不想换更小的模型(精度掉得太厉害),于是决定从模型结构下手做轻量化。折腾了两周,试了各种方法:剪枝、量化、通道压缩……最后发现深度可分离卷积这个老牌技术才是性价比最高的。改动不大,效果却很明显——计
🔥本文提出了一种基于CFDA(粗到细可变形聚合)模块改进的YOLOv12目标检测网络。该模块通过粗粒度位移预测和亚像素级细化,增强模型对错位、多尺度形变和复杂背景中目标特征的自适应聚合能力。CFDA模块首先预测目标特征与参考特征间的大致对应关系,再修正局部偏差,最后利用可变形卷积动态采样有效特征。相比普通卷积或普通可变形卷积,CFDA能更精准聚合目标边缘、纹理和局部结构信息,减少背景干扰,提升小
目标追踪是从上一帧(或之前)追踪目标与当前帧识别出的目标进行匹配,量化来看就是对每个目标和每个追踪进行置信度的计算,实际上就是一个二维的关联矩阵。针对镜头中移动物体过多导致的追踪器溢出,在图像去噪之后又使用了均值聚类算法,这一操作明显过滤了画面大幅扰动带来的性能风险。,实际上由于高空抛物目标的特性这种情况并不产生明显影响,更进一步当前算法没有关注图像本身的信息所以本质上无法完全判断谁会更好,你也可
在自适应天线系统中,阵列互耦效应对位移相位中心天线(Displaced Phase Center Antenna, DPCA)雷达杂波抑制性能具有显著影响。本文系统阐述 DPCA 杂波对消的基本原理,建立考虑阵列互耦的双通道信号模型,推导杂波协方差矩阵与对消因子的解析表达式,并基于矩量法仿真与实测数据,定量分析阵列规模、辐射单元类型、栅格形式、边缘保护带、相位中心位移及扫描角度等关键设计参数对杂波
【摘要】本文介绍了将CBAM注意力机制融入RT-DETR目标检测模型的方法与效果。CBAM通过通道注意力和空间注意力双重机制,能有效提升模型在复杂场景下的特征利用效率。实验表明,改进后的模型在油菜田间杂草识别任务中,mAP达到82.5%,较原模型显著提升。文章详细阐述了CBAM的实现原理、代码实现及集成步骤,并验证了该模块在保持实时性的同时能增强模型鲁棒性。该方法为提升Transformer-ba
本文介绍了一个基于MATLAB的多目标航迹关联仿真程序,主要解决多目标场景下的观测-航迹匹配问题。程序能够处理目标同时运动、观测噪声、目标出现和消失等复杂情况,实现观测数据与航迹的自动匹配。核心算法包括:通过代价矩阵计算航迹与观测的匹配关系,采用门限限制避免错误匹配;对未匹配航迹和观测进行特殊处理,通过计数变量管理航迹状态(候选/确认/终止);支持匀速运动模型和卡尔曼滤波更新。仿真结果表明,该程序
高分辨率YOLO优化:提升小目标检测性能的关键策略 本文针对工业质检等场景中的小目标检测难题,系统分析了YOLO模型在高分辨率输入下的优化方法。核心发现表明,将输入分辨率从640提升到1280可使小目标在特征图上的有效尺寸翻倍,显著改善检测效果。然而,直接提高分辨率会导致四大问题:计算量激增、推理速度下降、大目标精度退化和样本失衡。 文章提出了一套完整优化方案:通过重新聚类锚框适配高分辨率输入,增
在使用gr.Video+RT-DETR模型构建视频流目标检测系统之前,先了解下RT-DETR模型。先讲解模型的技术与架构,然后着眼于训练细节与性能表现,接着介绍其最新版本RT-DETRv2,最后通过图像目标识别示例演示其用法及列出下一步的学习资源。本节使用RT-DETR对用户上传视频进行实时目标检测,并借助Gradio视频流功能实现检测结果的实时传输。
车位状态检测算法是本系统的核心模块,其实现主要分为三个步骤:车位区域定义、车辆检测与跟踪、车位状态判定。车位区域定义采用半自动方式,通过交互式界面标注每个车位的边界坐标,并建立车位ID与实际位置的映射关系。系统支持多边形车位区域定义,以适应不同停车场的布局特点。 车辆检测采用改进的YOLOv26算法,针对停车场场景优化了模型参数和训练策略。模型输入为预处理后的图像,输出为检测到的车辆边界框及其类别
YOLO26技术解析摘要:2026年发布的YOLO26通过四大突破性创新重新定义了目标检测范式。核心革新包括:1)端到端架构彻底移除NMS,使CPU推理速度提升43%;2)MuSGD优化器提升30%收敛速度;3)小目标检测机制ProgLoss+STAL使AP提升12%;4)RepGFPN特征金字塔降低27%计算量。该系列提供从2.5M到46.7M参数的5种模型,在T4 GPU上相比YOLOv8延迟
大家好,我又来分享YOLOv10的改进经验了。最近在做目标检测的项目,遇到了一个老生常谈的问题——类别不平衡。具体来说,我要检测的数据集中,某些类别的样本数量远多于其他类别,导致模型训练时对小样本类别的检测效果非常差。试过各种方法:过采样、欠采样、class weights、数据增强...效果有,但都不够理想。最后决定从损失函数入手,把Focal Loss和EIoU结合了一下,没想到效果出奇的好。
兄弟们,做目标检测的应该都遇到过这种糟心事儿:明明标注框框得挺认真,损失函数降得也挺漂亮,可模型一到真实场景就各种漏检、误检。折腾半天发现,罪魁祸首往往是数据集里那些“低质量样本”——模糊的目标、标注不准确的框、被遮挡严重的物体……我之前用YOLOv10训练一个工业缺陷检测模型时,就栽过大跟头。训练集里有些缺陷标注框明显偏了半个身位,还有些目标只有十几个像素大小。结果模型训出来,正常样本检测精度还
在目标检测领域,特征金字塔网络(Feature Pyramid Network, FPN)的设计直接影响模型多尺度特征的融合能力与检测精度。YOLOv10作为YOLO系列的最新力作,虽然在速度和精度上取得了优异平衡,但其颈部网络(Neck)仍采用较为固定的特征融合路径,未能针对特定数据集进行自适应优化。本文提出了一种基于神经架构搜索(Neural Architecture Search, NAS)
在目标检测任务中,多尺度特征融合一直是提升检测性能的关键技术。YOLOv10作为YOLO系列的最新成员,虽然已经在速度和精度之间取得了不错的平衡,但在处理多尺度目标(尤其是小目标和大目标的共存场景)时仍有提升空间。本文详细介绍了如何将PANet(Path Aggregation Network,路径聚合网络)引入YOLOv10中,通过增强自顶向下和自底向上的双向特征融合路径,显著提升模型对多尺度目
在目标检测领域,特征金字塔网络(Feature Pyramid Network, FPN)的设计直接影响模型的多尺度特征融合能力。本文提出了一种基于BiFPN(Bidirectional Feature Pyramid Network)加权双向特征金字塔的YOLOv10颈部重构方法,旨在解决原始YOLOv10在复杂场景下多尺度目标检测的精度瓶颈。通过引入BiFPN的加权特征融合机制与双向跨尺度连接
在目标检测任务中,模型对特征的提取能力直接决定了其检测精度和泛化性能。YOLOv11作为YOLO系列的先进代表,虽然在特征提取和检测效率上取得了显著进展,但在处理时,仍面临挑战。具体而言,传统卷积神经网络(CNN)在提取特征时,往往难以同时兼顾,导致在复杂背景下小目标漏检、目标间关系理解不足等问题。为解决上述问题,本文提出一种针对YOLOv11的改进方案——。
本文分享了一个用于作弊行为检测的目标检测数据集,包含1100张标注图像,已划分为训练集和验证集。数据集聚焦两类核心作弊行为:一般作弊和使用手机等严重作弊,支持YOLO等主流模型训练。文章详细介绍了数据集背景、结构、应用场景及模型训练指南,旨在为智能监考系统研发提供高质量数据支持,推动教育公平体系建设。数据集可通过百度网盘下载,提取码85cv。
本文为计算机视觉综合实践项目实战分享,针对轻量化视觉模型精度与算力难以兼顾的痛点,基于 RTX 3060 6G 显卡,在 PASCAL VOC2012 数据集完成多标签分类 + 目标检测双任务落地。分类采用 MobileNetV2,mAP 达 82%;检测用 YOLOv5n/s 双模型对比,mAP@0.5 分别达 50.5%、60%,均超额完成基线要求。全文覆盖数据预处理、模型微调、算力适配全流程
在计算机视觉目标检测领域,YOLOv10作为YOLO系列的最新力作,在精度和速度上取得了令人瞩目的突破。然而,在实际应用场景中,模型对遮挡、光照变化、噪声干扰等复杂环境的鲁棒性仍有待提升。本文提出了一种新颖的改进方案——融合SA(Stochastic Attention,随机注意力)模块的YOLOv10鲁棒性增强方法。SA模块通过引入随机化机制,在训练过程中动态调整注意力权重,有效缓解了过拟合问题
YOLOv10作为YOLO系列的最新力作,在速度和精度平衡上达到了新高度。但其C2f模块中使用的传统卷积(3×3/5×5)难以捕捉遥感图像中目标的长程依赖关系和全局语义信息。大核注意力机制通过动态重加权和扩大感受野,能够显著提升遥感检测性能。本文将LSK(Large Separable Kernel Attention,大核分离注意力)机制无缝集成到YOLOv10的Neck层,设计出LSK-YOL
在目标检测领域,YOLO系列模型凭借其出色的速度与精度平衡,始终占据着重要地位。然而,传统YOLOv10模型在处理复杂场景下的多尺度目标时,仍存在特征表达能力不足、关键信息丢失等问题。本文提出一种基于GAM(Global Attention Mechanism,全局注意力机制)的YOLOv10改进方案,通过引入多层次特征融合模块,显著提升了模型对重要特征的关注度。实验结果表明,改进后的模型在COC
在目标检测任务中,定位精度往往决定了模型的实际应用价值。YOLOv10作为YOLO系列的最新力作,虽然在速度和精度之间取得了优秀的平衡,但在小目标检测和密集场景下的定位能力仍有提升空间。本文提出了一种基于Coordinate Attention(CA)坐标注意力机制的YOLOv10改进方法,通过增强模型对位置信息的感知能力,显著提升了目标定位精度。本文将从CA注意力机制的原理出发,详细阐述如何将其
在目标检测领域,YOLOv10凭借其实时性和高精度已成为工业界和学术界的首选模型之一。然而,传统的YOLOv10在全局特征建模方面存在天然缺陷——其基于卷积的局部感受野限制了长距离依赖的捕获能力。本文提出了一种创新性的改进方案:将External Attention(外部注意力机制)无缝集成到YOLOv10的主干网络中,构建出YOLOv10-EA-Net。实验证明,该方法在保持实时性的同时,显著提
在计算机视觉领域,形变目标的检测一直是一个具有挑战性的任务。传统的目标检测方法通常依赖于固定的几何结构,难以有效处理具有不规则形状、非刚性形变或部分遮挡的目标。本文提出了一种基于YOLOv10结合DA(Deformable Attention)可变形注意力机制的改进方法,显著提升了模型对形变目标的检测能力。DA可变形注意力机制通过引入可学习的偏移量,使模型能够自适应地调整采样点位置,从而更好地捕捉
在计算机视觉领域,目标检测任务一直是研究的热点与难点。YOLOv10作为YOLO系列的最新成员,凭借其出色的实时性能和检测精度,已经在工业界和学术界获得了广泛应用。然而,如何在保持模型轻量化的同时进一步提升特征表达能力,仍然是一个值得深入探索的问题。本文提出了一种创新的YOLOv10改进方法——引入SimAM(Simple, Parameter-Free Attention Module)无参数注
目标跟踪
——目标跟踪
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net