登录社区云,与社区用户共同成长
邀请您加入社区
工业设备点检是保障生产安全的核心环节,但传统人工点检存在效率低、漏检率高、安全风险大等问题。本文提出基于YOLOv11的视觉检测方案,通过分层架构实现自动化点检系统。YOLOv11凭借速度快(125FPS)、精度高(99.8%)、模型小(5.8MB)等优势,成为工业检测首选。系统采用数据增强(10倍扩增)、锚框优化等技术提升性能,支持多种部署方式。相比人工点检,该方案可实现24小时不间断作业,检测
通过以上的改进方法,我们成功提升了模型的表现。这只是一个开始,未来还有更多优化和技术深挖的空间。在这里,我想隆重向大家推荐我的专栏——<YOLO26改进-论文涨点——点击跳转看所有内容,关注不迷路!这个专栏专注于前沿的深度学习技术,特别是目标检测领域的最新进展,不仅包含对YOLO26的深入解析和改进策略,还会定期更新来自各大顶会(如CVPR、NeurIPS等)的论文复现和实战分享。为什么订阅我的专
本文介绍了如何将YOLO26的上采样模块替换为DSUB来提升特征提取效果。主要内容包括:1)DSUB模块的代码实现步骤,包括新建模块文件、修改初始化文件、添加配置文件等;2)在YOLO26中集成DSUB的具体方法,包括模型注册和训练配置;3)改进后的模型性能分析,展示了GFLOPs的变化;4)进阶建议,如结合其他注意力机制进一步优化;5)完整代码分享。该教程详细说明了从理论到实践的完整流程,即使是
本文介绍了一种基于Java生态的YOLO多任务解决方案,解决了传统Python部署在工业场景中的痛点。文章从技术选型、架构设计到具体实现进行了详细阐述: 技术选型上推荐ONNX Runtime Java + JavaCV组合,兼顾性能和跨平台需求 设计了分层模块化架构,支持目标检测、实例分割、姿态估计和旋转检测四大任务 提供了完整的Maven依赖配置和模型转换脚本 实现了预处理、推理和后处理的核心
摘要: 本数据集包含5000张真实停车场场景图像,针对智能停车系统开发需求,提供4类目标标注(空位、已占用、违规停车、车牌)。数据集特点包括:多任务融合(车位状态+车牌检测)、真实复杂场景覆盖(不同光照/角度/遮挡)、高质量YOLO格式标注。适用于YOLO系列模型训练,支持智能停车管理、违规识别、车牌检测等应用场景,具有强工程落地价值。数据集结构规范,可直接用于模型训练与验证,助力智慧交通系统开发
摘要: 本数据集包含2500张真实水下场景图像,标注11类水下渔具与海洋垃圾(如渔网、鱼笼、绳索、轮胎等),采用YOLO标准格式标注,覆盖复杂水下环境(光照衰减、浑浊、遮挡等)。数据分为训练集、验证集和测试集,结构规范,适用于YOLO等主流模型训练。特点包括真实性强、类别精细(细分渔具类型)、标注质量高,可应用于水下机器人视觉、无人潜航器巡检、海洋生态监测等领域,为水下目标检测研究提供重要数据支撑
🏆 本文收录于 《YOLOv8实战:从入门到深度优化》 专栏。该专栏系统复现并梳理全网各类 YOLOv8 改进与实战案例(当前已覆盖分类 / 检测 / 分割 / 追踪 / 关键点 / OBB 检测等方向),坚持持续更新 + 深度解析,质量分长期稳定在 97 分以上,可视为当前市面上 覆盖较全、更新较快、实战导向极强 的 YOLO 改进系列内容之一。
深度学习模型部署方案选型指南 本文对比了PyTorch、ONNX、TensorRT和OpenVINO四种主流模型部署方案。PyTorch适合原型验证,开发体验好但性能较差;ONNX作为跨平台中间格式,兼容性强但需配合运行时;TensorRT在NVIDIA GPU上性能最优,支持FP16/INT8量化;OpenVINO专为Intel硬件优化,CPU性能突出。测试显示,TensorRT在RTX 409
本教程详细介绍了如何将YOLO26的主干网络替换为RMT特征提取模块。主要内容包括:1) RMT模块的原理介绍;2) 分步骤实现代码修改,包括添加RMT.py文件、修改init.py、创建yaml配置文件、在task.py中注册模块;3) 提供了完整的可执行代码;4) 展示了改进前后的GFLOPs对比;5) 建议进一步结合其他注意力机制或损失函数优化模型。通过该改进方案,读者可以轻松实现YOLO2
本文探讨了在Java环境中部署YOLO目标检测模型的优化方法。针对Java生态与Python/C++生态的兼容性问题,提出从模型端到运行时的全流程优化方案。 在模型端,通过结构化剪枝(剪枝率0.4-0.5)、知识蒸馏和INT8量化技术,可将模型体积缩小4倍,推理速度提升2-3倍,精度损失控制在1%以内。其中INT8量化需使用100-500张校准图片进行静态量化。 在Java运行时端,重点优化ONN
在深度学习时代之前,人脸检测一般采用传统的、基于手动设计特征的方法,其中最知名的莫过于Viola-Jones算法,至今部分手机和数码相机内置的人脸检测算法,仍旧采用Viola-Jones算法。然而,随着深度学习技术的蓬勃发展,基于深度学习的人脸检测算法逐步取代了传统的计算机视觉算法。在人脸检测最常用的数据集——WIDER Face数据集的评估结果上来看,使用深度学习的模型在准确率和召回率上极大的超
🔥本文提出了一种改进RT-DETR网络模型的MWHL(最大池化-小波下采样)模块,通过融合最大池化与小波变换的优势,在保留强响应语义信息的同时维持特征结构细节,有效缓解传统下采样过程中小目标特征丢失的问题。该模块采用双分支结构并行处理特征,结合频域与空间域信息协同建模,显著提升了对小目标和弱目标的感知能力,并增强了复杂背景下的抗干扰性能。实验结果表明,MWHL模块在不显著增加计算开销的前提下,能
🔥本文给大家介绍使用 HEWL小波特征融合模块 改进RT-DETR网络模型,作用在于在特征融合与上采样阶段引入频域高频信息指导特征重建,使模型在检测过程中不仅关注语义信息,还能够有效保留目标的边缘与细节结构,从而提升对小目标和弱目标的表达能力。通过小波分解提取高频信息并结合注意力机制进行加权融合,RT-DETR可以在复杂背景下更准确地恢复目标轮廓,减少特征模糊带来的定位误差。其优势在于显著增强小
🔥本文提出了一种基于跨模态全局建模模块(CGMM)的改进RT-DETR目标检测方法。该模块通过全局上下文建模机制,在特征融合阶段同时考虑空间和通道维度的信息交互,有效缓解了可见光与红外等多模态数据间的特征不一致问题。CGMM采用多分支结构和注意力机制,结合频域变换技术,实现了像素级的跨模态特征对齐与交互。实验表明,该方法在复杂场景(如低光照、雾雨干扰等)下显著提升了目标检测的鲁棒性和准确性,同时
本项目基于MATLAB平台,利用长短期记忆网络(LSTM)实现光伏功率预测。针对光伏发电受天气因素影响大、功率波动性强等特点,采用LSTM网络处理时序数据中的长期依赖问题。项目包含数据采集与特征构建、LSTM网络设计、模型训练优化等关键环节,通过滑动窗口处理时序数据,采用MSE损失函数和Adam优化器进行训练。实验结果表明,该模型能有效提升预测精度,为电网调度和新能源消纳提供支持。项目解决了数据缺
大家好,我是老张,做了三年多目标检测的算法工程师。今天想和大家聊聊一个比较头疼但特别有意思的问题——小目标检测,以及我是怎么在YOLOv10上通过一种“区域感知数据增强”的方法,把模型在小目标上的泛化能力硬生生提上去的。先说说背景吧。上个月接到一个项目,需要在无人机航拍的图像里检测行人、车辆和交通标识。数据集拿到手一看,好家伙,1024×1024的图像里,很多目标的尺寸只有十几个像素点,甚至更小。
大家好,最近在做目标检测项目时遇到了一个头疼的问题:模型训练到后期,loss死活降不下去,mAP卡在某个阈值动弹不得。其实这就是典型的难例挖掘问题——模型已经把简单的样本都学得差不多了,剩下的都是“硬骨头”。传统的hard negative mining虽然有效,但容易让模型在训练初期就陷入局部最优解。经过一段时间的挣扎和调研,我决定在YOLOv10的基础上引入课程学习(Curriculum Le
大概两个月前,我在做一个工业缺陷检测的项目,手头有大量的标注数据,但那些数据都是在实验室理想光照条件下采集的。真到了工厂现场,光线变化、背景杂乱、相机角度偏移,之前训练好的模型直接掉点30多个AP。重新标注现场数据?一张图标注成本三块钱,一万张就是三万块,还不算人工审核的时间成本。后来我翻了好多论文,什么CycleGAN、DA Faster RCNN、DDC方法都试了一遍,效果是有,但总觉得差点意
传统的交叉熵损失只关注类别边界的正确性,它不关心同类样本在特征空间中的分布是否紧凑,也不关心不同类之间的边界是否足够清晰。对正样本对的贡献进行密度加权:特征空间中密度高的区域(样本拥挤)贡献更小的权重,因为该区域已经学得够好了;alpha越大,模型对困难负样本的关注越强。可视化特征空间的t-SNE图可以发现,基线的裂纹样本散落在划痕样本中,而DACL让所有裂纹样本聚成了一个紧凑的簇。的核心思想是:
去年年底接手了一个水下机器人自主避障的项目,甲方要求在水下浑浊环境中识别沉船、管道、礁石等目标。说实话,一开始我是想直接用YOLOv8的,但恰逢YOLOv10刚发布不久,抱着尝鲜的心态试了一下,结果发现推理速度确实提升明显,而且在小目标检测上比v8强了不少。折腾了两个月,踩了不少坑,今天就把这套从声呐图像预处理到YOLOv10改进的完整方案分享出来。先给心急的朋友看一眼最终效果:在我们自建的侧扫声
大家好,我又来更新了。前段时间一直在做自动驾驶感知方向的项目,踩了不少坑,也积累了一些经验。今天想跟大家分享一个我们刚刚做完的工作——把激光雷达点云投影到图像平面,用YOLOv10做三维检测的思路。为什么要做这个?其实纯视觉方案在自动驾驶中成本低,但深度信息不准;纯激光雷达方案精度高,但点云稀疏且缺乏纹理信息。所以很自然的想法就是把两者结合起来。网上很多文章讲融合,但要么理论讲得多代码少,要么代码
透明物体检测一直是计算机视觉领域的老大难问题。玻璃杯、塑料瓶、透明包装纸这些东西,普通RGB相机拍出来基本就靠猜——反射、折射、背景干扰,模型经常把透明杯子和后面的桌布当成一坨东西。我之前做工业质检项目的时候,产线上要检测透明玻璃瓶盖有没有盖好,试了YOLOv5、YOLOv8,精度死活上不去,最高才78%的mAP。偏振。透明物体对偏振光的响应特性跟不透明物体完全不一样。这篇文章我详细讲一下怎么把偏
我查了一圈论文,现有的多模态融合方法主要有三类:前期融合(输入级融合)、中期融合(特征级融合)和后期融合(决策级融合)。考虑到YOLOv10的实时性优势,我选择在特征提取层做中期融合,也就是双流网络+注意力融合模块的方案。特征级融合让网络先各自提取模态特有特征,再学习如何融合,这样更合理。普通的RGB摄像头这时候就成瞎子了,换上热红外摄像头倒是能看见,但热图像纹理信息太少,白天又不好使。那能不能两
本文详细记录将 YOLOv8 目标检测模型从 NVIDIA CUDA 环境迁移至 AMD ROCm 平台的完整流程。包含代码改造要点、算子兼容性测试、详细的性能对标数据(FPS、延迟、显存占用),以及 3 个典型报错的排查与修复方案。实测数据显示,MI300X 在保持 95%+ 精度的前提下,成本仅为 A100 的 40%。
🔥本文提出使用LPRM(局部像素关系卷积模块)改进RT-DETR网络模型。LPRM通过建模局部像素关系优化特征融合和上采样过程,增强空间结构恢复能力和上下文联系。该模块具有多尺度建模能力,能提升细节表达和边界定位效果,适用于小目标和复杂场景检测。文章详细介绍了LPRM的结构原理、实现方法及多种改进方案(包括HGBlock_LPRM、ResNetLayer_LPRM等变体),并提供了完整的代码实现
🔥本文提出了一种混合池化下采样模块HPDown,用于改进RT-DETR网络模型,以解决红外小目标在下采样过程中的信息丢失问题。HPDown通过通道拆分,将最大池化保留强响应目标信息的能力与平均池化保留整体结构和背景上下文的能力相结合,再通过卷积进一步学习和融合互补特征。相比普通下采样方法,HPDown能更好地保留小目标的轮廓和细节特征,增强后续检测与分割任务的准确性。实验结果表明,该方法在红外小
FDFAM(Frequency Domain Feature Aggregation Module)是 FreDFT 中负责跨模态深度融合的核心模块,用于将经过 LFEM 与 CGMM 处理后的 RGB/IR 特征进一步聚合。论文指出,现有方法大多在空间域用 Transformer 建模模态互补性,却忽略了频域在纹理细节与热结构信息解耦方面的优势。为此,FDFAM 由多模态频域注意力 MFDA 和
本系统采用前后端分离的架构。后端以SpringBoot框架为核心,负责业务逻辑、用户管理与数据持久化,使用MySQL数据库存储用户信息与检测记录。前端提供交互式Web界面,实现数据可视化与管理功能。系统的核心检测模块集成并支持YOLOv8、YOLOv10、YOLOv11、YOLOv12四种先进的YOLO系列目标检测算法,针对包含black_core(黑心)、crack(裂纹)、finger(断栅)
本文介绍了如何在星图GPU平台上自动化部署DAMO-YOLO智能视觉探测系统镜像,快速搭建电商商品图智能处理工具。该系统能自动识别图片中的商品类别并打上标签,典型应用于电商场景下的商品图片批量自动分类与属性提取,显著提升运营效率。
通过分箱,我们可以将用户划分为“高价值用户”、“潜力用户”、“需挽留用户”等,为精准营销提供依据。: 巩固“华东”、“华北”市场领导地位,针对“华南”、“西部”地区制定增长策略,如区域性广告投放。: “华东”和“华北”地区是销售重镇,贡献了超过60%的营收。: “电子产品”类别贡献了近40%的销售额,是绝对的明星品类。其次是“服装”和“家居”。: 销售额在Q4(特别是11月和12月)有显著增长,可
简称FCM认证(FoodContactMaterialsCertification),是指对食品与器皿、容器、设备等接触的材料进行认证,在材料的生产、使用、存储等过程中确保食品的卫生安全。 这些产品包括但不限于化学品、化妆品、个人护理产品、危险品和危险物质、农业化学品、工业化学品、电子产品、建筑材料等。FCC认证在美国属于强制性认证,个人电脑以及周边产品、家用电器设备、电动工具、音频产品、视频产
最近在做智慧城市的项目,被密集场景下的目标检测折磨得不轻。停车场里密密麻麻的车、商场里人来人往的人群、还有显微镜下的细胞图像,YOLOv10在这些场景下表现总是不尽如人意——漏检严重,尤其是重叠目标,小目标更是直接“隐身”。网上搜了一圈,发现大家都遇到类似的问题。有人提议增大输入分辨率,但显存扛不住;有人建议用更大的模型,但实时性就没了。后来我翻了翻Transformer在目标检测中的应用,发现一
大家好,我是一名边缘计算方向的研究生,最近在做一个无人机视觉识别的项目,需要把YOLOv10部署到Jetson Orin NX上。模型精度和推理速度的平衡折磨了我快两个月,最后在4比特整型量化上找到了突破口。今天就把踩过的坑和优化经验分享出来,希望对有类似需求的朋友有帮助。为什么选择4比特量化?先说说背景。YOLOv10官方权重是FP32的,在Jetson Orin NX上跑640x640输入,大
最近在做目标检测的轻量化工作,选的是YOLOv10这个新出的模型。说实话,v10确实比v8、v9快了不少,但上手机器人这种边缘设备还是有点吃力。尝试过TensorRT加速,效果还行,但总感觉还能再压一压。后来翻了不少剪枝的论文,发现通道剪枝这个方法简单粗暴效果好,就决定拿YOLOv10开刀了。断断续续折腾了两周,总算跑通了一套完整的流程。这篇文章不聊虚的,直接上代码和踩坑记录。数据集我用的是Vis
大家好,最近在做模型轻量化的时候踩了不少坑,今天想把一个我觉得效果还不错的方法分享出来——层自适应幅度剪枝在YOLOv10上的应用。这个方法我们跑了好几个月,中间各种调参和debug,总算整理出一套比较稳定的方案。先交代一下背景。我们团队主要做边缘端目标检测,设备是Jetson Orin和树莓派这种算力有限的平台。YOLOv10确实快,但原版nano模型部署上去推理延迟大概在30ms左右,虽然勉强
大家好,我又来分享YOLOv10的改进经验了。最近在做一个嵌入式设备上的目标检测项目,树莓派4B跑原版YOLOv10-nano还是有点吃力,推理一帧要将近200ms,完全达不到实时要求。老板催得紧,我又不想换更小的模型(精度掉得太厉害),于是决定从模型结构下手做轻量化。折腾了两周,试了各种方法:剪枝、量化、通道压缩……最后发现深度可分离卷积这个老牌技术才是性价比最高的。改动不大,效果却很明显——计
本文介绍了工业AI落地中YOLO模型压缩的三大核心技术:量化、剪枝和知识蒸馏。针对工业场景的实时性、资源与成本约束,文章对比了不同压缩技术的优缺点,提出"先剪枝减少计算量,再蒸馏恢复精度,最后量化压缩体积"的最佳实践组合。量化部分详细解析了训练后量化(PTQ)和量化感知训练(QAT)的实现方法;剪枝技术重点介绍了结构化剪枝原理,强调其在通用硬件上的实用性。通过这三种技术的协同使
本文介绍了一种基于YOLOv12模型和C#/ONNX Runtime的小型视觉检测系统构建方法,适用于工业自动化中的零件计数与分类场景。该系统采用三层架构设计,通过将YOLOv12模型转换为ONNX格式,实现与C#上位机的无缝集成。文章详细讲解了图像预处理、模型推理与后处理等关键技术实现,包括Letterbox缩放、坐标还原和零件计数分类等功能。相比传统方案,该系统具有部署简单、运行高效的特点,可
目标追踪是从上一帧(或之前)追踪目标与当前帧识别出的目标进行匹配,量化来看就是对每个目标和每个追踪进行置信度的计算,实际上就是一个二维的关联矩阵。针对镜头中移动物体过多导致的追踪器溢出,在图像去噪之后又使用了均值聚类算法,这一操作明显过滤了画面大幅扰动带来的性能风险。,实际上由于高空抛物目标的特性这种情况并不产生明显影响,更进一步当前算法没有关注图像本身的信息所以本质上无法完全判断谁会更好,你也可
基于YOLOv8的微米级金属冲压件裂纹检测优化方案 本文针对金属冲压件微米级裂纹检测难题,提出了一种改进的YOLOv8解决方案。针对5-50μm裂纹的小目标特性,通过数据增强(Copy-Paste、多尺度裁剪)、网络结构优化(增加P2检测头、引入CBAM注意力机制)、损失函数改进(SIoU+Focal Loss)以及后处理优化(动态NMS、裂纹连接算法),将检测召回率从52%提升至94%。实验表明
RT-DTER最新创新改进系列通过融合HCANet网络中的卷积和注意力融合模块(CAFM),显著提升了小目标检测性能。HCANet结合CNN和Transformer的优势,设计了CAFM模块捕获长程依赖性和局部光谱相关性,并引入多尺度前馈网络(MSFN)增强多尺度特征提取。实验证明该方法能有效去除高光谱图像中的复杂噪声,在多个基准数据集上表现优异。相关代码已开源。
【摘要】本文介绍了将CBAM注意力机制融入RT-DETR目标检测模型的方法与效果。CBAM通过通道注意力和空间注意力双重机制,能有效提升模型在复杂场景下的特征利用效率。实验表明,改进后的模型在油菜田间杂草识别任务中,mAP达到82.5%,较原模型显著提升。文章详细阐述了CBAM的实现原理、代码实现及集成步骤,并验证了该模块在保持实时性的同时能增强模型鲁棒性。该方法为提升Transformer-ba
目标检测
——目标检测
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net