登录社区云,与社区用户共同成长
邀请您加入社区
本期介绍了11个YOLOv11目标检测数据集,涵盖多个应用场景:1)草地散落纸张检测(203张);2)室内安防未定义目标检测(904张);3)夜间林地獾类检测(118张);4)海底珊瑚礁生态监测(2693张,含海龟、垃圾等);5)银行自助区门状态检测(103张);6)工业设备缺陷检测(231张,含腐蚀、泄漏等);7)铁路货运车厢检测(175张);8)户外蛞蝓检测(1786张);9)室内苍蝇检测(1
YOLO目标检测入门讲义——RoboMaster视觉篇
目标跟踪是计算机视觉中的基础任务,其核心原理是通过时序建模持续定位视频中的特定目标。动态状态空间模型(DSSM)作为一种新兴的序列建模方法,通过状态转移矩阵实现对时序特征的动态捕捉,相比传统RNN具有更好的长程依赖建模能力。在工程实践中,结合事件相机(Event Camera)的高动态特性,可以显著提升跟踪系统在高速运动、低光照等挑战场景下的鲁棒性。MambaTrack框架创新性地将RGB与事件数
本文介绍了7个YOLOv11目标检测数据集,涵盖卫星影像、工业车间、高尔夫球场、摄影棚、自然生态和城市街道等多个场景。数据集包括废弃建筑(225张)、工业盒子(300张)、高尔夫球(2266张)、摄影设备(1188张)、断裂部件(156张)、野外植被(200张)和校车(120张)等类别,均提供标注文件和数据配置。每个数据集包含训练集、验证集和测试集划分,支持目标检测任务。
皮肤癌是全球范围内最常见的恶性肿瘤之一,早期准确诊断对提高患者生存率至关重要。本文基于YOLO26目标检测算法,构建了一个针对七类常见皮肤病变的自动识别检测系统。研究数据集包含681张训练图像、97张验证图像和195张测试图像,涵盖Bowen‘s Disease、Basal Cell Carcinoma、Benign Keratosis Lesions、Dermatofibroma、Melanom
道路坑洼检测是智能交通系统和道路养护管理中的关键任务。本研究基于YOLO26目标检测算法,构建了一个针对道路坑洼的单类别检测系统。实验采用1265张图像进行训练,401张图像进行验证,118张图像进行测试。模型在验证集上的平均精度(mAP50)达到68.6%,精度为76.2%,召回率为61.5%。混淆矩阵分析显示,模型对坑洼的识别准确率为63%。训练过程稳定,损失函数持续下降,无明显过拟合现象。
在计算机视觉领域,目标跟踪是感知动态环境的核心任务。传统RGB跟踪器依赖图像的外观特征,但在高速运动或光照突变时,运动模糊会导致高频细节丢失,严重影响跟踪鲁棒性。其原理在于CMOS传感器在曝光期间的光子积累造成图像退化。为解决此问题,事件相机作为一种新型传感器,通过异步记录像素亮度变化,提供了微秒级时间分辨率和高动态范围,天生免疫运动模糊。FreqTrack创新性地将RGB与事件数据转换至频域进行
目标跟踪是计算机视觉中的核心任务,旨在连续定位视频序列中的特定目标。其基本原理是通过提取目标的表观和运动特征,在后续帧中进行匹配与预测。传统RGB相机在纹理丰富、运动平缓的场景下表现良好,但在高速运动、光照剧变或运动模糊等挑战性场景中性能会显著下降。事件相机作为一种新型传感器,通过异步输出像素亮度变化事件,对微秒级运动极为敏感,拥有极高的动态范围,能有效弥补RGB相机的短板。RGB-Event融合
目标跟踪是计算机视觉中的基础任务,旨在连续定位视频序列中的特定目标。其核心原理在于利用目标的表观和运动特征进行匹配与预测。传统基于RGB图像的方法在高速运动或低光照场景下面临运动模糊和细节丢失的挑战,限制了其技术价值。为解决这一问题,多模态融合技术应运而生,通过结合不同传感器的互补信息提升鲁棒性。事件相机作为一种新型仿生传感器,以微秒级分辨率异步捕捉亮度变化,天然适用于高速、高动态范围场景。Fre
无人机识别检测系统在低空安防、空域管理和公共安全等领域具有重要应用价值。本研究基于YOLO26目标检测算法,构建了一套针对无人机目标的自动识别检测系统。系统使用包含1个类别(drone)的数据集进行训练,其中训练集1012张图像,验证集347张图像。实验结果表明,该模型在验证集上取得了95.1%的mAP50,精确率达到95.5%,召回率为88.6%,最佳F1分数为0.92。模型推理速度为1.7ms
【代码】YOLO系列目标检测数据集大全【第三十五期】
本文介绍了10个YOLOv11目标检测数据集,涵盖工业、医疗、餐饮等多个领域。包括工业流水线冰淇淋空杯检测(19张)、室内足部姿态检测(195张)、工业泄漏检测(29张)、甜品店蛋糕检测(547张)、意大利面检测(150张)、乡村道路车辆检测(272张)、货架茶饮料检测(151张)、餐厅脆皮猪肉检测(200张)、肩关节医学影像检测(5841张)和办公零食检测(209张)。每个数据集均提供YAML配
港口正运用AI技术解决船舶识别与异常预警难题。传统AIS系统存在数据不准和更新延迟问题,现采用多源数据融合与神经网络技术,结合CNN和LSTM模型,通过外形和轨迹特征识别船舶类型,晴天准确率超96%。异常预警采用"规则引擎+时序预测"架构,区分突发与渐变风险。系统通过减少重复判断辅助调度员,实现"AI计算+人类决策"的智慧港口模式,重点优化拖轮伴航等复杂场景的误报问题。
本数据集含2500张真实水下图像,涵盖11类废弃渔具(如鱼笼、绳索、渔网)与海洋垃圾(轮胎、木材等),支持YOLO等目标检测模型训练。专为应对水下光学退化、目标遮挡、尺度多变等挑战构建,标注精细、结构规范、开箱即用,助力ROV/AUV智能巡检与海洋生态治理。
本文介绍了一种基于AI防爆摄像机的船舶逆行监测系统。该系统通过防爆摄像机采集航道视频,利用深度学习算法实时检测船舶并分析其航向,当发现逆行行为时联动声光报警装置发出警示。文章详细阐述了防爆摄像机的特殊设计、逆行检测算法的三步骤工作原理(目标检测、航向判断、跟踪过滤),以及声光报警的实现方式。同时指出实际应用中需注意摄像机安装角度、防爆等级选择和天气因素影响。这种自动化监测方案可有效提升危险品码头、
本文基于YOLOv8目标检测算法构建了一套麻将牌面识别检测系统,旨在实现复杂光照与姿态条件下的实时、高精度麻将牌分类与定位。系统共定义42个类别,涵盖1至9的筒、条、万及东南西北、红中、发财、白板等常用牌型。模型在RTX 3080 Ti硬件环境下完成训练与评估,实验结果表明:模型在验证集上的平均精度mAP50达到92.6%,mAP50-95为76.1%,F1分数最高为0.92,推理速度约为5.4毫
从样本图像来看,数据集覆盖了多样化的海上目标场景:包含不同吨位的船舶、近岸的塔台设施、小型的帆板运动目标,且图像中存在自然的海面反光、云层遮挡与地形干扰,模拟了真实海事监测中的视觉条件。标注的 6 类目标涵盖了常规海上元素与异常运动目标,其中 “帆板” 等小型目标的标注,为模型学习小目标的视觉特征提供了准确的监督信息。该数据集覆盖了多样化的海上环境:包含不同时段的光照变化、海面波动干扰与岸线地形差
AI技术助力港口安全管理升级,船舶AI算法与防爆摄像机实现智慧监管。传统人工监控存在盲区多、响应慢、环境适应性差等问题。船舶AI算法具备自动识别、轨迹跟踪、靠泊姿态分析、作业行为识别等功能,提升安全预警能力。防爆摄像机满足高危环境需求,具备防爆、抗腐蚀、高清画质等特点,与AI算法深度融合实现边缘计算。两者结合形成"前端感知+边缘分析+平台联动"的智能体系,某石化码头应用后事故率下降80%以上,安全
本文介绍了一种基于深度学习目标检测算法YOLOv11的手机识别检测系统,该系统通过YOLOv11模型实现了高精度的手机目标检测,并集成了用户友好的UI界面与登录注册功能。系统以Python为核心开发语言,包含完整的项目源码、预训练模型及标注数据集。针对手机检测任务,数据集包含单一类别“Phone”,训练集2700张图像,验证集800张图像,覆盖多样场景和光照条件,确保模型鲁棒性。实验表明,该系统在
随着深度学习技术的快速发展,目标跟踪算法的发展也随之兴起。鉴于目标、骨干网络和应用方法的多样性,本研究旨在综合整合现有的目标跟踪方法。我们提出了一种基于应用场景和主要方法的系统分类方案,伴随着对每个类别的透彻分析和简明摘要。这种方法提供了更广泛的跟踪技术覆盖面,便于新手研究人员更快地理解该领域。此外,我们提出了标准化的评估指标和广泛使用的数据集,包括在相同的基准上对选定算法进行跨方法性能比较,以增
本项目基于YOLOv12深度学习框架开发了一套高效的安全帽检测系统,专门用于识别作业场景中的安全防护装备佩戴情况。系统采用两分类检测模式('helmet'安全帽和'head'头部),通过5,000张标注图像的数据集(训练集3,500张、验证集和测试集各750张)进行模型训练,确保检测精度与泛化能力。项目包含完整的Python实现代码、预训练模型参数,并集成用户友好的UI界面,支持登录注册功能,便于
本文介绍了11个YOLOv11目标检测数据集,涵盖多种场景和类别。数据集包括高空山地烟雾(737张)、室内宠物猫狗(50张)、农田烟草植株(100张)、工业仓储叉车(51张)、室内安防监控(124张)、家庭环境猫狗(88张)、户外无人机(269张)、水果香蕉(161张)、室内床铺(163张)、飞机分割(172张)和桥梁孔洞检测(94张)。每个数据集提供下载链接、样本标注图和YAML配置文件,适用于
本文探讨了Transformer的注意力机制如何革新多目标跟踪(MOT)技术,特别是通过TrackFormer实现从卡尔曼滤波到tracking-by-attention的范式迁移。文章详细解析了TrackFormer的核心代码和优势,包括统一的注意力机制处理检测与关联、隐式建模时空关系等,展示了其在复杂场景下的卓越性能。
本文深入解析了TrackFormer如何利用Transformer架构革新多目标跟踪(MOT)技术,替代传统的卡尔曼滤波方法。通过tracking-by-attention新范式,TrackFormer将检测与关联融合进统一的注意力机制,显著提升了遮挡处理和ID保持能力。文章详细介绍了其核心架构、训练策略及工程优化,并对比展示了其在MOT17测试集上的优越性能。
本文介绍了10个YOLOv11目标检测数据集,涵盖游戏、医疗、工业和食品等多个领域。数据集包括游戏场景玩家检测(77张)、手术器械识别(2999张)、脑肿瘤检测(953张)、咖啡杯识别(29张)、庭院物品检测(200张)、面粉袋检测(1410张)、医疗输液装置(43张)、瓦楞纸板缺陷检测(38张)、变质肉块识别(112张)和食品罐头分类(4620张)。每个数据集均提供标注类别、样本数量和下载方式,
道路坑洼是影响行车安全与道路使用寿命的主要因素之一,实现自动化、高效率的坑洼检测对智能交通系统具有重要意义。本文基于YOLO26目标检测算法构建了一套道路坑洼识别检测系统,采用单类别(pothole)检测任务,共使用3 043张图像进行训练,273张用于验证,174张用于测试。实验结果表明,模型在验证集上的平均精度均值(mAP@0.5)达到0.895,最佳F1分数为0.85,最大召回率为0.92,
本文对比了三种机器人动作生成模型的核心原理与差异: DiffusionPolicy:通过加噪-去噪生成连续动作块,解决多峰分布问题,适合精细操作但语言理解能力较弱。 OpenVLA:将连续动作离散化为token,利用VLM理解图像和语言指令,自回归生成动作序列,但需量化可能损失连续性。 π0:结合VLM的语义理解与FlowMatching的连续动作生成,通过预测修正方向迭代优化动作块,兼具任务理解
视觉定位完成了自然语言到图像空间的精准锚定,是跨模态感知的关键基石。从传统的锚点+NMS架构,到DETR的无锚框Transformer革新,再到GLIP、Grounding DINO的开放词汇突破,以及UniVG-R1的视频时空定位升级,视觉定位不断突破封闭场景限制,向开放世界、动态时序、多模态融合方向发展。如今,视觉定位已广泛应用于图像标注、智能交互、机器人感知、视频监控等场景,成为多模态AI落
LangGraph Checkpoint存储膨胀问题分析与解决方案 摘要 本文分析了LangGraph在PostgreSQL中Checkpoint存储膨胀问题的根源及解决方案。当使用PostgresSaver进行状态持久化时,默认配置会导致每次节点执行都生成全量快照,产生严重的写放大效应。问题主要表现为: 不可变存储设计导致数据量O(N²)增长 TOAST和WAL机制加剧I/O压力 缺乏自动清理策
支持前后端同时开发;项目文件夹结构可视化;环境自托管,自动安装依赖(如 Vite、Next.js 等);运行 Node.js 服务器,从部署到生产Bolt.new的目标是,让更多人都能完成 web应用开发,即便是编程小白,也能通过简单的自然语言实现创意。官方已将项目开源:https://github.com/stackblitz/bolt.new不过,官方开源的 bolt.new 支持模型有限,国
在前面的专栏实战中,我们先后完成了AI水体智能提取NDVI植被覆盖度反演两大生态遥感核心项目,掌握了遥感AI解译、地物统计、时序分析的标准化落地流程。本期正式进入城镇人工地物遥感实战高精度建筑物提取 + 多年城市建成区扩张动态分析。建筑物是城市遥感的核心骨架,建成区范围、建筑密度、新增建设用地规模,是衡量城镇化进程、城市扩张、国土空间变化的核心指标。传统建筑提取手段弊端显著:传统阈值分割极易与裸土
本文介绍了基于Qwen2.5-VL的Chord视觉定位模型,该模型可在星图GPU平台上实现自动化部署。该镜像专为高速视频流设计,能对120fps画面中的高速运动目标(如赛车、运动员)进行稳定、平滑的边界框跟踪,可广泛应用于体育赛事分析、智能交通监控等实时视觉定位场景。
AI偏航算法助力港口航道安全管理。该技术通过整合AIS、气象和电子海图数据,利用机器学习实时监测船舶轨迹,动态调整报警阈值。其核心包含数据处理、偏航识别和风险预警三大模块,能提前预测偏航趋势,显著降低误报率并提供决策支持。试点项目显示该技术使偏航事件减少30%,误报警降低50%,但面临数据延迟和场景适配等挑战。未来结合VTS系统可进一步优化预警策略,为港口安全提供创新技术方案。
本文介绍了如何在星图GPU平台自动化部署Chord视频时空理解工具镜像,实现动态目标的跨帧跟踪与可视化分析。该工具基于Qwen2.5-VL架构,可精准追踪视频中的行人、车辆等多目标运动轨迹,适用于安防监控、交通管理和体育分析等场景,提供高效的本地化处理与显存优化方案。
摘要:本文探讨强化学习与目标检测结合的创新研究路径,重点分析其在提升检测精度、降低计算开销方面的优势。介绍两个典型案例:1) 基于Qwen2.5-VL大模型的多图定位强化学习方案,通过思维链微调和GRPO强化学习提升跨图推理能力;2) 融合空间变换网络的小目标检测框架,采用RL驱动的粗到精检测策略。研究显示,这种组合能有效解决传统检测方法的泛化弱、小样本适应差等问题,在多个权威基准上取得突破性进展
【视频理解评测新基准】Video-MME(CVPR2025)解决了视频多模态领域缺乏统一评测标准的核心痛点。该基准通过覆盖不同时长/类型/场景的视频内容,综合评估模型在时序推理、细粒度识别等维度的能力,已被Gemini、GPT等旗舰模型采纳为官方评测标准。其创新点在于:1)建立首个全面视频评测体系;2)揭示采样帧数/分辨率对成绩的影响;3)持续维护避免数据失效。目前该基准已成为衡量视频理解能力的&
本文主要探讨了在预训练模型瓶颈显现的背景下,后训练和推理计算的重要性,并建议从模型服务(serving)入手,因为这是模型应用的第一步。文章比较了SGLang和vLLM两个框架,它们分别来自斯坦福和UC伯克利,功能相似,但各有特色。SGLang提供了丰富的服务功能,如chunkedprefill、speculativedecoding、radixattention和structured
SpireCV-Pro 是一个专为智能无人系统、移动机器人和边缘 AI 设备打造的实时感知开发平台。它不是单纯把算法模型封装成 SDK,而是把相机、视频流、激光雷达、目标检测、分割、跟踪、吊舱控制、结果可视化、视频保存、推流、ROS2 转发、评估与数据迭代等能力,拆解成可以多平台(工作站、NX、瑞芯微、昇腾)自由组合的节点,让开发者像搭积木一样构建自己的感知工作流。。
摘要 本文针对昇腾AI处理器视觉推理中的图像缩放(Resize)操作进行了深入分析。Resize作为目标检测、语义分割等视觉模型前处理的核心环节,其性能直接影响推理管线的整体效率。文章首先剖析了Resize在目标检测输入预处理和多尺度推理中的典型应用场景,指出了传统CPU预处理存在的同步阻塞、内存拷贝等性能瓶颈。随后重点介绍了CANN算子库ops-cv中的两种优化策略:通过AIPP硬件预处理单元实
比如说,在一个检测车辆的任务中,如果模型把一辆真实存在的车正确检测出来了,这就是一个 TP;这些概念在评估目标检测模型的性能时非常重要,基于它们可以计算出各种评估指标,如准确率、召回率、F1 值等,以全面衡量模型的检测效果。:指被错误地检测为正例的负例样本数量,也就是误报。举例来说,模型把一个本不存在目标物体的区域错误地判断为存在目标物体。:指被错误地检测为负例的正例样本数量,也就是漏报。例如,模
目标跟踪
——目标跟踪
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net