登录社区云,与社区用户共同成长
邀请您加入社区
26年4月来自中科院自动化所、中科院大学、中科第五纪公司(FiveAges)、清华、西交大、武汉大学和南京大学的论文“Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model”。机器人操作需要理解环境的三维空间结构及其时间演化,然而大多数现有策略往往忽略其中之一或两者。它们通常依赖于二维视觉观测
26年4月来自Stanford、UCSD、CMU、Google DeepMind和Harvard的论文“World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry”。通用世界模型有望实现可扩展的策略评估、优化和规划,但要达到所需的鲁棒性水平仍然充满挑战。与主要关注最优动作的策略学习不同,世界模型需
变分推理的核心思想是通过构造可计算的近似分布q(z|x)来逼近不可算的真实后验p(z|x)。由于直接优化p(x)存在计算困难,转而最大化其下界ELBO。ELBO由两项组成:重构项和KL散度项,前者鼓励生成质量,后者约束近似分布。通过巧妙代数变换,将不可算的p(x)转化为可优化的目标。在实际训练中,期望计算通过蒙特卡洛采样实现,通常仅需单次采样即可有效估计。这种转换使VAE等模型得以高效训练,同时保
医疗影像AI辅助诊断系统采用Java+DJL+YOLOv11技术栈,解决传统Python方案在医疗场景下的部署难题。系统从PACS获取DICOM影像,通过预处理后使用YOLOv11模型检测病灶,并生成结构化报告。技术优势包括:纯Java环境便于医院系统集成、DJL框架保障数据安全、YOLOv11算法提升小病灶检测精度。系统架构包含影像采集、预处理、病灶检测、分级分析和报告生成等模块,通过dcm4c
纺织面料瑕疵检测系统采用Java+DJL+YOLOv11技术栈,解决了传统人工检测效率低、漏检率高的问题。系统通过线阵工业相机采集图像,利用YOLOv11模型实现高精度瑕疵检测,并集成报警控制模块实现自动化标记。相比Python方案,该技术栈具有部署简单、运行稳定、易与工业系统集成等优势。系统架构包含图像采集、视觉处理、结果分析和报警控制等模块,支持高速实时检测,显著提升了纺织行业的质量控制水平。
本文介绍了基于Java+DJL+YOLO的工业机器人视觉引导抓取系统解决方案。针对传统Python方案在工业场景中的部署复杂、实时性不足等问题,采用纯Java技术栈实现高性能视觉处理。系统通过工业相机采集图像,利用YOLOv11模型进行目标检测,计算工件坐标并规划机器人抓取路径。文章详细阐述了系统架构、开发环境搭建(包括硬件配置和Maven依赖)以及核心功能实现,重点展示了如何使用DJL框架加载Y
/ 加载自定义模型,指定类别名称var classNames = new[] { "针孔", "划痕", "短路" };如果需要自定义后处理逻辑,可以继承// 自定义后处理逻辑// 使用自定义后处理器TensorRT引擎生成慢:第一次加载模型时,TensorRT会生成引擎文件,这个过程可能需要几分钟。生成的引擎会缓存到本地,下次启动直接加载,速度会快很多。CUDA版本兼容问题:YoloSharp要
摘要:本文分享了工业质检场景下C#调用YOLOv8s ONNX模型的性能优化实战经验。原始单帧推理耗时300ms无法满足产线需求,通过全链路分析定位瓶颈(预处理85ms、推理180ms、后处理30ms)。重点优化措施包括:使用OpenCVSharp CUDA加速预处理(85ms→12ms),开启ONNX Runtime ALL级别图优化,选用TensorRT执行提供程序(180ms→22ms),以
目标检测面临的核心挑战在于处理不同尺度目标。浅层特征分辨率高但语义弱,适合小目标定位;深层特征语义强但分辨率低,适合大目标识别。仅用单层特征会导致小目标丢失或大目标定位不准。多尺度特征融合通过结合浅层细节与深层语义,使模型能同时处理不同尺寸目标。这一原理为理解YOLO等检测器的多尺度设计奠定了基础,也是现代目标检测网络的关键设计思想。
为了满足道路巡检与移动机器人的避障需求,本文开发了一款基于PySide6的障碍物智能检测桌面工作站。系统流畅接入图、视、机多路实时视流,提供动态进度、耗时反馈与阈值微调功能。依托内置SQLite,平台构建了支持免登录跳过的本地数据追溯闭环,允许一键归档CSV统计台账及带框的PNG与AVI可视化影像。在算法核心上,本文横向剖析了YOLOv5至YOLOv12八大模型的mAP、F1等关键性能指标,实现了
为攻克高杆监控等远视距场景下的车位识别难题,本文推出了一款基于PySide6的高效桌面检测平台。该系统针对复杂透视与遮挡痛点进行了深度优化,不仅流畅兼容图、视、机多路实时推理,更配备了精准的耗时统计与进度追踪。在工程管理层面,平台依托内置SQLite实现了灵活的免登录追溯机制,并支持一键导出CSV报表及带框的可视化影像(PNG单帧/AVI序列)。其核心算法引擎横向打通了YOLOv5至YOLOv12
在STM32H7微控制器上成功部署MobileNetV2图像分类模型,实现12FPS实时推理。项目使用STM32H723ZGT6(550MHz Cortex-M7)、OV5640摄像头和SPI LCD,通过X-CUBE-AI工具链将量化后的MobileNetV2_0.35模型(输入128×128 uint8,输出15类float)转换为C代码。关键优化包括:选择宽度乘数α=0.35减小模型体积(6
瞄准PCB板缺陷自动化质检痛点,本文构建了一套端到端的深度学习桌面检验平台。系统前端搭载PySide6,流畅兼容图、视、摄像头多源输入,并辅以精准的进度与耗时监控以契合工业节拍。依托内置SQLite,软件打造了支持免登录跳过的本地数据闭环,允许质检员一键归档CSV台账及带框影像(PNG或AVI格式)。核心算法详尽评测了YOLOv5至YOLOv12八代模型的mAP、F1等关键指标,更实现了运行态下的
摘要: 本文系统梳理了YOLO系列目标检测模型中IoU(交并比)指标的演进历程。从YOLOv1-v3仅使用传统IoU,到YOLOv4引入GIoU和DIoU,再到当前主流版本(v4-v8)默认采用CIoU Loss,通过增加中心点距离和宽高比惩罚项显著提升了检测精度。YOLOv6+/v8进一步引入DFL Loss建模边界框分布,结合Task-Aligned Assigner优化样本匹配。实验表明,C
YOLO系列演进趋势与核心技术摘要: YOLO系列从v2到v11持续创新,核心演进方向包括:检测头从Anchor到Anchor-Free再到端到端无NMS;网络结构从浅层到深层残差、CSP、RepVGG等;正样本分配从静态IoU到动态匹配(SimOTA、匈牙利算法);训练策略从单任务到多任务统一。各版本突破性技术包括:v2引入Anchor机制,v3采用FPN多尺度检测,v4集成Mosaic增强和C
这一篇非常关键,它不再只是“训练模型”,而是带你理解:一个完整的机器学习项目是如何从0到上线运行的AI系统的公平性、偏见与伦理问题(工业级必备)
在机器学习项目中,模型不是一次就做好的,而是一个不断迭代优化的过程。
在具身智能的感知系统中,语义分割已经从单纯的“图像分类工具”进化为连接视觉与行动的桥梁。过去:我们教机器人“看到红色的像素是路”。现在(2026):我们教机器人“理解像素的语义”,并结合大模型(SAM/CLIP)实现零样本的通用感知。未来:语义分割将与世界模型更深度结合,不仅分割当前画面,还能预测物体在时间维度上的变化(例如:预测这扇门打开后的空间),为具身智能提供真正的4D时空理解能力。
工业PCB微缺陷检测的挑战与优化方案 摘要:针对PCB板0.3mm微缺陷检测难题,本文提出了一套完整的工业级解决方案。通过对比主流目标检测模型,最终选用YOLO12n作为基础架构,并针对微缺陷特点进行了10项关键优化:包括960×960输入尺寸、P2层特征增强、GAM注意力机制、NWD损失函数等。系统实现了98.7%的召回率和1.8%的误检率,单帧检测时间控制在45ms内,完全满足产线120块/分
卷积神经网络通过逐层卷积操作从原始像素中提取多尺度特征,实现从低层边缘纹理到高层语义的渐进式理解。卷积核滑动计算生成多通道特征图,每个通道对应不同特征响应;下采样操作(如stride卷积或池化)缩小特征图尺寸并扩大感受野。浅层特征保留细节适合小目标检测,深层特征整合全局信息用于语义理解。这种层级结构是目标检测模型(如YOLO)多尺度预测的基础,三个核心公式分别描述卷积计算、输出尺寸变化和最大池化操
26年4月来自清华大学的论文“Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?”。视频生成模型发展迅速,并开始展现出对物理动力学的深刻理解。本文研究诸如 Veo-3 (来自谷歌Deep mind)之类的视频生成模型在多大程度上能够支持可泛化的机器人操作。首先研究一种零样本方法,其
本文解析了YOLOv3中的IoU计算及其改进方法。YOLOv3原始论文使用传统的轴对齐矩形框IoU,但其开源实现Darknet支持GIoU、DIoU和CIoU等改进版本。这些改进通过配置文件启用,分别解决了无重叠框优化、中心点距离和宽高比等问题,在mAP性能上均有提升。GIoU对小目标检测效果更好,DIoU优化了边界框回归效率,CIoU综合性能最佳。IoU在YOLOv3中主要用于标签分配、损失函数
YOLOv2(YOLO9000)是目标检测领域的重要突破,在保持实时性的同时显著提升精度。其核心创新包括:引入Anchor Boxes提升边界框预测能力,采用多尺度训练增强模型鲁棒性,设计轻量级主干网络Darknet-19,以及通过联合训练COCO和ImageNet实现9000+类别检测。相比YOLOv1,mAP提升13.4%达到76.8,FPS增至67帧。但仍存在小物体检测不足、Anchor设计
工业场景下YOLO模型全链路优化实践 摘要:针对工业质检场景对检测速度的严苛要求,本文系统性地分享了YOLOv8模型从11.2FPS到102.7FPS的全链路优化方案。通过骨干网络轻量化(RepVGG-A0替换)、结构化剪枝(参数量减少50%)、知识蒸馏(精度恢复至97.6%mAP)、INT8量化(计算量降低4倍)以及TensorRT加速等关键技术,在精度仅下降0.8%的前提下实现9倍性能提升。特
摘要 工业视觉检测中,光照不均是导致60%以上项目失败的核心问题。传统方法(如调整光源、固定阈值等)缺乏自适应性,难以应对复杂多变的光照条件。本文提出基于Java+YOLOv11的系统性解决方案,从数据、模型、推理三个层面优化: 数据层面:通过随机亮度/对比度调整、阴影模拟等增强方法,结合真实产线多时段数据采集,提升模型对光照变化的泛化能力。 模型层面:引入CBAM注意力机制、多尺度训练和迁移学习
摘要: C#与YOLO深度学习的组合已成为工业视觉系统的黄金标准,满足工业场景对稳定性、实时性、集成性和部署便捷性的严苛需求。C#凭借.NET运行时的稳定性、丰富的工业生态和高效GUI开发能力,成为工业上位机开发的首选;YOLO则以其单阶段检测架构、高精度和轻量化特性,适配工业目标检测需求。通过ONNX Runtime实现跨框架模型部署,C#调用YOLO模型时性能优于Python,支持毫秒级实时推
摘要: 论文《InceptionNeXt》提出了一种新型CNN架构,通过融合Inception思想与ConvNeXt的大核卷积优势,解决了传统大核卷积内存访问成本高的问题。核心创新是Inception深度卷积,将大核分解为并行的小方核、带状核和恒等映射分支,在保持大感受野的同时显著降低计算复杂度。实验显示,InceptionNeXt-T在ImageNet-1K上比ConvNeXt-T快1.6倍且精
公路边坡落石滑坡监测黑光摄像头,基于YOLOv8+TransformerAI识别技术,快速识别桥梁垮塌、边坡滑坡、泥石流等灾害,并触发灾害报警机制,及时、迅速地提醒过往车辆采取紧急避让、驶离公路等措施,正在重新定义公路灾害智能监测的技术边界。
摘要: 本文提出BMCNet,一种用于事件流超分辨率(ESR)的双流解耦网络,通过独立处理正负事件并设计双边信息交换模块(BIE)实现特征互补。传统方法混合处理正负事件导致边缘模糊,而BMCNet将二者解耦为独立分支,利用BIE在通道维度交互全局结构信息,增强细节恢复能力。实验表明,该方法在真实与合成数据集上性能提升超11%,且BIE模块可扩展至多模态任务。代码已开源。 (字数:149)
直击考场与线上考试的防作弊管理痛点,本文推出一款集实时预警与证据留痕于一体的智能监考桌面平台。依托PySide6,该系统流畅接入图、视、机多源视流,提供直观的进度与耗时反馈,并支持灵活的阈值调参及目标高亮复核。为满足严谨的教务追溯需求,系统内置SQLite管理免登录会话与检测档案,支持将违纪记录一键导出为CSV台账及带有检测框的PNG或AVI取证影像。核心算法全面覆盖YOLOv5至YOLOv12八
为赋能智慧仓储与物流分拣,本项目打造了一套开箱即用的快递包裹智能检测桌面工作站。系统基于PySide6流畅接入多源输入(图/视/摄像头),直观呈现检测框、置信度与处理进度。依托SQLite,平台构建了包含免登录入口的本地数据闭环,允许一键归档CSV报表及可视化影像(PNG单帧或AVI长视频)。在硬核算法层面,系统不仅深度横评了YOLOv5至YOLOv12八大模型的mAP、F1等关键指标以辅助实景部
面向纺织生产线的质检痛点,本文推出一款集“训练、评测、部署”于一体的布匹缺陷智能检测平台。该系统基于PySide6开发,无缝接入图片、视频及摄像头流,不仅能实时渲染目标框、置信度与进度条,还依托SQLite构建了兼顾免登录跳过的账户体系与数据追溯闭环。质检人员可便捷地将结果一键导出为CSV台账及带框可视化影像(PNG或AVI)。此外,底层算法全面剖析了YOLOv5至YOLOv12八大版本在mAP、
针对安防看护需求,本文实现了一款基于PySide6的跌倒检测桌面系统。该方案整合了图片、视频及摄像头多源输入,并实时反馈推理进度与耗时。依托SQLite,系统构建了支持免登录跳过的本地账户及检测记录追溯体系,允许一键导出CSV报表、单帧PNG或多帧AVI影像。在算法侧,系统横向对比了YOLOv5至YOLOv12共八代模型,支持运行态下的权重热切换,并详尽分析了mAP、F1等指标以辅助实时场景下的部
针对复杂光照与多尺度遮挡环境下的表情识别挑战,本文研发了一套基于PySide6的智能桌面分析平台。该系统全面兼容图片、视频及摄像头多源输入,实时反馈推理耗时与进度,并依托SQLite构建了包含免登录模式的本地数据追溯闭环。用户能便捷地将识别台账导出为CSV,或一键保存带框的PNG图像与AVI长视频。在算法引擎方面,系统深度适配了YOLOv5至YOLOv12八大版本模型,支持本地权重免重启热替换及界
针对森林与工业场景的早期火灾预警,本文构建了一套基于PySide6与YOLOv12的桌面级火焰智能检测系统。该软件不仅全面兼容图片、视频和本地摄像头实时推理,还提供直观的进度与耗时反馈。为保障数据可追溯,平台依托SQLite打通了包含免登录模式的账户与历史记录闭环,并允许一键归档带框检测影像(PNG/AVI格式)及CSV数据报表。在算法核心上,系统深度整合了YOLOv5至YOLOv12八代模型,支
聚焦消防与安防实战需求,本文研发了一款基于PySide6的火焰与烟雾智能预警桌面系统。平台兼容图片、视频及摄像头多源实时侦测,直观展示检测框与进度,并开放阈值微调与目标高亮功能。借助内置SQLite与灵活的免登录机制,系统实现了检测记录的本地闭环追溯,支持一键导出CSV台账及带框的PNG与AVI影像。其核心算法引擎囊括了YOLOv5至YOLOv12八代模型,支持权重的免重启热切换。文章详尽对比了m
为了满足水果分级与缺陷筛查等精细化需求,本文创新性地打造了一款基于PySide6的桌面级品质智能检测平台。该平台无缝兼容图片、视频及本地摄像头等多源输入,不仅提供直观的进度反馈,还支持灵活的阈值调参及目标高亮。在数据留存方面,系统依托SQLite构建了包含免登录模式的本地闭环追溯体系,确保检测报表(CSV)及可视化影像(PNG单帧/AVI长视频)的高效导出与归档。尤为突出的是,系统内核深度集成了Y
针对水果采摘、分拣及零售质检环节,本文实现了一款基于PySide6的桌面端新鲜度智能检测系统。该软件整合了图片、视频及摄像头多源输入,直观叠加新鲜度等级标签并提供实时进度反馈。借助内置SQLite,系统搭建了支持免登录跳过的灵活账户机制与闭环数据追溯功能。其核心工程亮点在于:支持一键导出CSV报表及可视化画面(PNG或AVI格式),且允许免重启热插拔YOLOv5至YOLOv12八大版本模型权重。结
针对城市垃圾分类难题,本文推出一款基于PySide6的桌面级智能检测系统。该软件集成图片、视频及摄像头多源输入,直观展示处理进度、耗时与带置信度的目标框。数据管理上,依托SQLite提供支持免登录跳过的会话机制,允许将检测记录导出为CSV,并一键保存带框画面(单帧PNG或多帧AVI)。算法端横向覆盖YOLOv5至YOLOv12八大版本,详尽剖析了mAP、F1等核心指标以助推实景部署选型,更实现了免
本文介绍了一款基于PySide6的常见手势智能识别桌面系统。它支持图片、视频及摄像头多源输入,可实时可视化手势类别、置信度、处理进度与耗时。系统内置SQLite数据库实现账户与识别记录的本地闭环管理(支持免登录跳过),允许一键导出CSV统计数据及带框画面(单帧PNG/多帧AVI)。此外,系统支持YOLOv5至YOLOv12共8种模型权重的本地热切换,文章详细对比了这些模型在mAP、F1等指标下的表
本文介绍了一款基于PySide6的血细胞智能检测与计数桌面系统,专为显微镜血涂片图像设计。系统支持图片、视频与摄像头输入,可实时可视化检测框与处理进度,并支持Conf/IoU在线调参。其内置SQLite数据库实现账户与检测记录的本地闭环管理(支持免登录跳过),允许一键导出CSV统计数据及带框画面(单帧PNG/多帧AVI)。此外,系统具备YOLOv5至YOLOv12共8种模型权重的本地热切换能力,文
本文介绍了一款基于PySide6的安全帽佩戴智能检测桌面系统,专为施工现场PPE监管设计。系统支持图片、视频及摄像头多源输入,可实时可视化检测框与处理进度。其内置SQLite实现账户与检测历史的本地闭环管理,支持免登录跳过,并允许一键导出CSV数据及带框画面(单帧PNG/多帧AVI)。此外,系统支持YOLOv5至YOLOv12共8种模型权重的本地热切换,文章详细对比了这些模型在mAP、F1等指标下
本文介绍了一款基于PySide6的农作物害虫智能检测桌面系统,专为复杂田间环境设计。系统支持图片、视频与摄像头多源输入,可实时可视化检测框、处理进度及耗时,并支持阈值在线调参。其内置SQLite数据库实现账户与历史记录的本地闭环管理(支持免登录跳过),检测结果可一键导出为CSV或带框画面(单帧PNG/多帧AVI)。此外,系统支持YOLOv5至YOLOv12共8种模型权重的热切换,文章详细对比了这些
本文介绍了一套基于PySide6的海洋动物智能检测桌面系统,专为温室与近海养殖等复杂场景设计。它支持图片、视频与摄像头输入,实时可视化类别、置信度及处理进度。系统内置SQLite实现账户与历史记录的本地追溯,检测结果可一键导出为CSV或带框画面(单帧PNG/多帧AVI)。此外,系统支持YOLOv5至YOLOv12共8种模型权重的热切换,文章详细评测了这些模型在mAP、F1等指标上的表现,为不同部署
计算机视觉
——计算机视觉
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net