登录社区云,与社区用户共同成长
邀请您加入社区
本文提出了一种基于YOLOv26的石油天然气设施智能监测系统。系统采用分层架构设计,包含数据采集、预处理、目标检测、状态分析、预警决策和部署集成六大核心模块。技术栈采用YOLOv26进行目标检测,结合OpenCV、PyTorch等工具实现图像处理和模型训练,并集成无人机控制(MAVSDK)和边缘计算(TensorRT)技术。系统通过多源数据采集(固定摄像头、无人机和巡检机器人),实现对石油天然气设
本文设计并实现了一种基于深度学习YOLOv12算法的脑肿瘤检测系统,结合计算机视觉与医疗影像分析技术,旨在提升脑肿瘤诊断的自动化与准确率。系统采用改进的YOLOv12模型作为核心检测框架,通过优化网络结构和训练策略,显著提高了对小尺度肿瘤的敏感性和定位精度。数据集方面,整合了公开的YOLO格式脑肿瘤影像数据,并进行了数据增强与标注优化以增强模型泛化能力。系统前端采用用户友好的UI界面,支持医学影像
建筑工地安全AI技术通过智能监控系统实现安全帽、反光衣、危险行为的实时检测。文章详细介绍了数据标注的核心方法,包括安全装备状态识别、危险行为时序标注、场景上下文理解等关键技术。通过多个实战案例展示了AI系统在大型建筑、高空作业、基坑工程中的应用效果,显著降低了事故率。TjMakeBot平台提供了专业标注工具,助力构建高质量工地安全数据集,推动智慧工地建设,保障建设者安全。
摘要:本文设计了一个融合YOLOv11目标检测与DeepSeek多模态理解的遥感地理空间目标检测系统。系统采用Vue3+SpringBoot+Flask技术栈,结合MySQL数据库和FFmpeg视频处理工具,实现对NWPU遥感数据集中飞机、运动场地等目标的智能检测。系统支持图像/视频批量检测、实时分析、结果可视化及AI建议功能,具有检测精度高、界面友好等特点,可应用于城乡规划、灾害监测等领域。通过
CANN生态下的ops-cv是专为图像处理、目标检测打造的NPU硬件优化算子库,核心实现计算机视觉网络在NPU上的高效加速计算,是CV模型落地Ascend NPU的核心底层组件。该仓库以C++为核心开发语言(占比78.74%),辅以CMake、Shell、Python完成工程构建与轻量调用,封装了CV任务全流程高频算子,针对NPU架构做并行计算优化,无需开发者手动适配硬件,大幅降低YOLO、Fas
通过本次重构,系统完成了从“静态检测工具”到“自进化智能终端”的架构升级。闭环验证:打通了从Detection->Feedback->Review->Training->的全链路。精度提升:实测表明,针对特定站点的环境干扰(如特定色温的灯光误报),通过采集 20-50 张样本并进行 50 Epoch 的加权微调,即可有效消除误报,且未显著降低原有召回率。后续计划引入模型版本控制功能,支持一键回滚至
开发者可以通过仓库中的examples目录,获取各类算子的调用示例,例如GridSample算子的空间变换示例、Resize算子的不同插值方式示例、NMS算子的目标框剔除示例等,每个示例都配有完整的代码和注释,清晰展示算子的参数配置、调用流程以及结果分析;与通用算子库不同,ops-cv针对视觉任务的特性,对每个算子进行定制化优化,充分利用昇腾NPU的专用CV指令集和并行计算能力,大幅提升图像处理和
从表中可以看出,基于重要性的剪枝依赖人工设计的重要性评价准则,在低压缩率下尚能保持精度,但随着剪枝比例提升,精度会出现明显下降;而基于搜索的剪枝将剪枝视为结构搜索问题,通过强化学习、演化算法、可微分搜索等策略自动优化通道配置,能够在更高压缩率下更稳定地保持模型精度。其中,DMCP、AutoSlim 等可微分搜索剪枝方法,在搜索效率与性能上均表现突出,成为当前结构化剪枝的主流发展方向。
《小目标检测的技术挑战与前沿进展》摘要 小目标检测是计算机视觉领域的关键挑战,其应用场景涵盖无人机巡检、医疗影像分析、自动驾驶等多个领域。核心难题包括特征湮灭(32倍下采样后目标信息丢失)、标注困境(极小目标标注困难)和评估偏差(传统指标易被大目标主导)。当前主流解决方案融合15项前沿技术:高分辨率输入与智能缩放、动态多尺度训练、增强型特征金字塔(如BiFPN)、轻量注意力机制等。2023-202
算子库是 CANN 异构计算架构中专门针对计算机视觉(CV)任务设计的加速层。其核心价值在于实现图像预处理(如缩放、色彩转换)和复杂后处理(如 NMS、ROI Align)的,从而彻底消除 Host-Device 间的数据传输瓶颈,并利用硬件的并行特性加速高复杂度、高访存密度的图像操作。
介绍了人体姿态估计、动作识别、时序动作检测和运动轨迹标注四大核心任务,详细阐述了17点关键点方案及其在足球、篮球、网球等运动中的应用。文章提供了专业的标注策略,包括关键点定位原则、可见性标注、运动模糊处理和多人场景处理方法。通过足球比赛分析、健身指导APP和游泳技术分析三个实战案例,展示了AI在体育领域的应用效果。此外,还介绍了TjMakeBot体育标注工具的功能特性,包括姿态标注、动作标注和运动
多模态医学影像智能处理研究进展 随着单模态医学影像性能接近极限,多模态融合成为突破关键。近期研究围绕模态融合、缺失模态应对和临床适用性展开:1)BrainMVP框架通过跨模态重建和对比学习实现缺失模态下的高效预训练;2)半监督分割方法利用多阶段融合和对比互学习提升标签稀缺时的性能;3)改进的模态丢弃策略结合可学习token增强缺失模态的泛化能力;4)区域文本一致性增强技术(RBTCA)通过文本-图
为验证改进方法的有效性,本文基于自制汽车中控屏小目标数据集开展对比实验,实验环境、数据集构建、实验设计及结果分析均贴合工程实操,所有实验数据均为本人实测,杜绝AI生成式虚假数据,同时总结实验过程中的调优坑点,为后续开发者提供参考。实验过程中遇到多个工程实操坑点,耗时较长,总结如下,帮助后续开发者避坑,提升开发效率:模块适配坑:替换C3k2_GCConv模块后,模型出现loss不收敛的问题,排查后发
yolo目标检测是计算机视觉避不开的一个强大模型,以其强大的可并行能力以及简单的结构甚至可以运用于实时检测。本文会从yolo的基本框架算法逻辑开始讲起,也就是yolov1,直至构建一个可以识别目标的模型项目。
ICCVAA2026将汇聚高等院校、科学研究所、企事业单位的专家、教授、学者、工程师等提供一个分享专业经验,扩大专业网络,面对面交流新思想以及展示研究成果的国际平台,探讨本领域发展所面临的关键性挑战问题和研究方向,以期推动该领域理论、技术在高校和企业的发展和应用,也为参会者建立业务或研究上的联系以及寻找未来事业上的全球合作伙伴。AI技术与应用、自然语言处理、人机交互、智能与AI赋能控制、智能自动化
边缘计算与轻量化模型对数据标注质量要求极高。相比云端大模型的容错性,边缘端小模型对噪声零容忍,需要精细化的标注策略。关键策略包括:1)提高标注精度至IoU 0.9以上,严格处理模糊、遮挡和极小目标;2)根据部署场景剪裁数据,平衡难易样本配比;3)采用克制的数据增强,避免过度复杂的变换。通过智能门铃和无人机巡检案例说明,优质的标注数据能显著提升模型性能,减少误报和漏检。TjMakeBot提供自动化数
CANN Graph 引擎不仅仅是一个简单的图数据结构库,它是一套精密的“图编译器”后端。通过对计算图的深度解析、多级融合、静态内存规划以及精细化的 Tiling 策略,它成功地屏蔽了底层硬件的复杂性,赋予了开发者极高性能的 AI 执行体验。对于希望深入了解昇腾架构底层的开发者来说,研读graph 仓库的源码是通往高级性能调优的必经之路。随着 CANN 版本的不断迭代,我们期待看到更多关于动态形态
摘要:本文深入探讨了目标检测模型中NMS(非极大值抑制)后处理的硬件加速优化方法。通过分析ops-cv中non_max_suppression.cpp的实现,详细介绍了如何利用aicpu_sort硬件单元加速排序计算,并结合YOLOv8案例提供完整的IoU阈值调优方案。实验数据显示,优化后的NMS在NPU上可实现3-5倍的性能提升,同时保持检测精度稳定。文章还包含环境配置、调优策略、常见问题解决等
3D目标检测通常包含以下几个步骤:点云预处理、特征提取、特征融合、目标检测和后处理。点云预处理对原始点云进行滤波、降采样等操作;特征提取从点云中提取多尺度特征;特征融合融合不同尺度的特征;目标检测预测物体的位置、尺寸和类别;后处理对检测结果进行NMS等处理。3D目标检测推理流程:输入点云↓│ 点云预处理 │ → 滤波、降采样↓│ 特征提取 │ → 提取多尺度特征↓│ 特征融合 │ → 融合不同尺度
ops-cv算子库是 CANN 架构在视觉计算领域的深度使能。它通过将图像处理算子下沉至 NPU,利用向量化计算、精细的显存对齐和流水线并行技术,解决了视觉应用中的预处理和后处理瓶颈。理解ops-cv的底层映射逻辑和访存优化机制,是开发者构建高性能、低延迟目标检测与视频分析系统的技术基石。
ops-cv通过精准的张量生命周期管理,复用已释放的内存空间存储新的中间结果,例如在IoU计算时,复用输入框的内存存储计算结果,内存占用减少35%,尤其适合边缘设备的低内存场景。:在某车企的自动驾驶域控制器中,基于ops-cv构建的图像预处理流水线,将摄像头输入的1920×1080图像预处理延迟从20ms降至5ms,结合目标检测模型的优化,整体系统帧率从15FPS提升至30FPS,满足实时感知需求
基本原理FMCW雷达通过发射频率随时间变化(通常为扫频模式)的连续波信号,然后接收目标反射回来的信号。由于发射信号到目标再返回有时间延迟,接收信号和发射信号之间会存在频率差。通过分析这个频率差,可以同时确定目标的距离和速度等信息。这一原理基于电磁波的传播特性,即当雷达波遇到目标时会发生反射,反射波携带了目标的相关信息返回雷达接收端。系统组成部分及功能上位机显示与控制界面功能一:信息显示:显示雷达检
boxes[:, 3:] = boxes[:, 3:].clamp(min=0.0, max=1.0)# 确保宽度和高度在 [0, 1] 范围内。boxes = boxes_xyxy.clamp(min=0, max=size).reshape([-1, 4])# 压缩到固定范围。boxes[:, 1:] = boxes[:, 1:].clamp(min=0.0, max=1.0)# 确保坐标在
数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)特别声明:本数据集不对训练的模型或者权重文件精度作任何保证,数据集只提供准确且合理标注。标注类别名称:["pothole"]图片数量(jpg文件个数):665。标注数量(xml文件个数):665。标注数量(txt文件个数):665。pothole
在目标分割研究方面,文献以边缘信息为引导来锐化目标,边缘信息大多是从上下文语义中整合而来,以获取定位信息,辅助合成的高低层特征信息的融合,从而实现分割。在港口场景中,由于拍摄距离较近,停靠的舰船目标数量较多,且每个目标在整个图像中所占像素较多,这些不同的场景和目标大小给海上舰船目标的检测带来了一定的困难,如下图。展示了这三个类别的精度对比,结果表明,大多数方法在处理这类目标时精度明显较低,这意味着
本文提出了一种基于多尺度稀疏交叉注意力(MSC)的YOLO11-MM多模态目标检测框架改进方法。通过在P4和P5层特征之间引入MSC模块,实现了红外与可见光特征的高效融合。MSC结合多尺度上下文建模和Top-K稀疏策略,有效抑制噪声干扰并提升目标检测精度。实验表明,该方法在FLIR、M3FD和LLVIP等多模态数据集上表现出色,具有工程友好性和场景适应性。文章详细介绍了MSC模块的实现原理、代码结
VOC数据集是目标检测经常用的一个数据集,自2005年起每年举办一次比赛,最开始只有4类,到2007年扩充为20个类,共有两个常用的版本:2007和2012。COCO的检测任务共含有80个类,在2014年发布的数据规模分train/val/test分别为80k/40k/40k,学术界较为通用的划分是使用train和35k的val子集作为训练集(trainval35k),使用剩余的val作为测试
本文基于 YOLOv8 和 PyQt5 实现了可视化目标检测桌面应用,解决了纯命令行操作的交互痛点,实现了多源输入、实时标注、一键启停等核心功能。该应用可快速落地于教学演示、小型安防检测、工业质检预览等场景,同时具备良好的拓展性。如果大家在代码调试、功能拓展、边缘设备部署(如树莓派)等方面有疑问或优化思路,欢迎在评论区交流探讨,也可私信沟通具体的定制化开发需求!附:核心资源链接。
【YOLOv8-Ultralytics】 【目标检测】【v8.3.235版本】 模型专用预测器代码predict.py解析
利用这个高质量数据集,我们开展了全面的实验,并揭示了SAR目标检测预训练中的一个关键挑战:在RGB数据集上预训练与在SAR数据集上微调之间,在数据域和模型结构方面均存在显著差异。为弥合这些差距,我们提出了一种新颖的带滤波器增强的多阶段(MSFA)预训练框架,该框架从数据输入、域转换和模型迁移的角度解决了这些问题。因此,它增强了跨域知识的对齐和可迁移性。SAR目标检测的一个主要障碍是,将在自然RGB
近年来,基于深度学习的目标检测技术(如YOLO系列)在行为分析领域取得了显著进展。YOLOv10作为YOLO系列的最新版本,具有更高的检测速度和精度,非常适合应用于教师行为检测场景。本项目旨在利用YOLOv10算法,结合教师行为数据集,开发一套高效、准确的行为检测系统,为教学质量管理与教育研究提供技术支持。
本文探讨自动驾驶从 2D 向 3D 感知的跨越,深入解析 LiDAR 点云数据稀疏、无序带来的标注挑战。文章详细拆解 3D 目标检测、语义分割及 4D 时序跟踪等核心任务,分享三视图联动、多传感器融合等实战技巧。结合 Robotaxi 与智慧物流真实案例,展示如何利用 TjMakeBot 的 AI 预标注与高性能可视化引擎,解决高难度标注痛点,提升数据生产效率与质量,助力自动驾驶算法精准落地。
收集 & 标注护目镜数据(YOLO 格式)按 7:2:1 划分 train/val/test使用 YOLO11 Nano 在 CPU 上训练在测试集上评估 Precision / Recall / mAP在图片、视频上实际推理验证效果具体项目的细节参见我项目中发布的readme文档前端页面展示如下项目地址主页还有其他个人制作的小工具kyf666plus。
GWO-LSTM多变量回归预测,灰狼算法优化长短期记忆网络的回归预测(Matlab)1.data为数据集。2.MainGWO_LSTMNN.m为程序主文件,其他为函数文件无需运行。3.命令窗口输出R2、MAE和MBE。4.灰狼算法优化参数为学习率,隐藏层节点个数,正则化参数。注意程序和数据放在一个文件夹,运行环境为Matlab2018及以上.在数据预测领域,如何提高预测的准确性一直是研究的重点。今
面对深度学习中的数据稀缺痛点,本文从工程视角详解数据增强技术。涵盖从基础几何变换到Mosaic、Mixup等高级策略的原理与避坑指南,特别针对分类、检测、分割任务推荐了最佳增强组合。文章强调了标注同步与验证集隔离的重要性,并结合TjMakeBot工具演示如何通过可视化调参和自动坐标变换,高效解决过拟合与长尾分布问题,帮助开发者利用有限数据最大化模型性能。
嵌入式视觉低功耗部署的“最优解”之一,它跳出了传统轻量化模型“牺牲精度换功耗”的误区,以“动态激活通道剪枝+无NMS+INT4量化”的协同优化,实现了“精度、速度、功耗”的三角平衡。对于嵌入式开发者来说,YOLO26-Edge的最大价值,不仅是“功耗降低58%”的参数优势,更是“部署简单、无需复杂调参、精度稳定”的实操优势——新手也能在1-2天内完成部署,实测数据可复现,完全能满足智能摄像头、机器
本文汇集 TjMakeBot 团队三年实战经验,深度解析无人机航拍标注全流程。针对俯视视角、尺度差异及成像质量等痛点,提供从采集航线规划到旋转框(OBB)、时序标注等高阶策略的避坑指南。结合智慧农业与城市管理案例,详解如何利用大图切片、地理投影及AI辅助工具提升效率,并分享数据增强与类别平衡优化技巧,助力构建高精度的航拍 AI 模型。
本文提出了一种基于YOLOv13的智能脑肿瘤检测系统,旨在解决传统MRI影像分析依赖人工、效率低下的问题。系统采用Vue3前端+SpringBoot/Flask后端架构,集成YOLOv13深度学习模型,支持图片、视频等多种检测方式,可识别胶质瘤、脑膜瘤等多种脑肿瘤类型。系统具备模型训练功能,支持自定义数据集优化,并提供完整的部署方案。该技术方案融合了计算机视觉和医疗影像分析的前沿技术,为脑肿瘤早期
派尼珂Pnioke 4K会议摄像机NK-UHDVC5012XW采用索尼1/2.8英寸857万像素CMOS传感器,支持4K/60fps超高清视频输出。具备20倍光学变焦、61.5°广角视野,配备HDMI、SDI、USB3.0等多种接口,支持PoE供电和AI人形跟踪功能。产品采用广播级画质处理技术,支持H.265/H.264编码,内置OLED显示屏,可显示IP地址和分辨率信息。适用于政企会议、远程教育
目标跟踪
——目标跟踪
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net