登录社区云,与社区用户共同成长
邀请您加入社区
技术层面,工业机器人调试的核心能力:系统性排查思路、扎实的基础知识、丰富的现场经验。心态层面,调试现场最考验人的不是技术,是压力下的冷静。未来趋势:AI 视觉普及、协作机器人崛起、数字孪生降低调试成本。
2026年5月国际学术会议投稿指南:涵盖能源、AI、工程等领域的40余场会议,包括东京CEGEST2026(5.1-3)、上海EEUPD2026(5.8-10)、成都AIDME2026(5.8-10)等。重点关注同期举办的东京双会(5.1-3)和国内多城市会议(5.8-10/15-17/22-24/29-31),涉及清洁能源、智能制造、大数据等前沿方向。建议提前3-6个月准备论文,密切跟踪官网更新
【摘要】智慧交通视觉算法面临恶劣天气识别率低、目标遮挡漏检、边缘算力限制等痛点。陌讯创新提出动态权重多模态融合架构,结合红外与毫米波数据,通过注意力机制自适应调整特征权重,实现92.3%的识别准确率(提升20.8%),模型体积压缩至98MB。实测显示其在雨雾天气下mAP达82.4%,较传统方案提升23.7%,边缘设备推理速度达50FPS,已成功应用于高速监控系统,显著降低人工复核工作量67%。该方
摘要:针对环卫垃圾桶满溢检测中光照变化、遮挡及算力限制等问题,陌讯视觉算法通过改进CBAM注意力机制、优化CIoU损失函数及轻量化设计,将模型参数量压缩35%,定位误差降低42%。某环卫集团落地实践显示,该系统准确率达98.3%,月均节省成本8.6万元。相比开源模型,陌讯算法在复杂场景下准确率提升12-22个百分点,推理速度更快,模型体积更小。优化策略包括数据增强、模型量化和动态阈值调整,有效提升
随着感知需求从“看得到”转向“看的稳”,RGB+EVS 的双模态融合已成为必然趋势。CF-NRS1 作为科研侧的先导硬件,解决了底层数据的一致性难题。未来,随着这类硬件级融合采集器的普及,视觉算法将真正具备超越人类生物眼的极端场景解析力,推动具身智能与高端工业检测向更高维度进化。【声明】本文档基于现有产品资料及相关学术论文进行技术性解读。文中提及的技术性能指标(如分辨率、动态范围、对齐方式等)均来
import os# 加载模型(可以用你自己训好的场景模型,标注更精准)# 图片文件夹路径# 标签保存路径# 批量推理+自动生成标注# 获取图片名# 生成YOLO格式标注内容# YOLO格式:类别id 归一化中心x 中心y 宽 高。
电商SKU识别不是"调用API",而是全流程的优化图像预处理(背景去除+对比度增强)模型选择模型优化(量化+输入尺寸)动态阈值(尺寸自适应)后处理(尺寸过滤)我的真实体验从第1次崩溃(精准率85%)到第4次成功,我用了37次踩坑。但今天,你不用再踩这些坑——从这6800字开始,从你的电商系统开始。电商SKU识别的真正价值,不是"能识别",而是"能精准高效识别"。而我的37次踩坑,就是让"能精准高效
通俗来说,梯度设定会影响参数的变化,进而影响误差变化的速率 ,梯度是模型修改参数的唯一依据,告诉整个网络权重怎么调整可以让误差达到最小。利用匈牙利算法求解代价矩阵,得到唯一、最小总代价的一对一匹配关系,保证每个真实框仅匹配一个预测框,每个预测框仅匹配一个真实框。的预测-真实对计算损失,未匹配的预测框判定为背景,无监督损失。核心意义:衡量模型「不瞎检」的能力,值越高,误检越少。核心意义:衡量模型「不
中国交通标志识别数据集包含12000张高清图像,覆盖58类常见交通标志,严格遵循国家标准。数据集包含限速、禁令、指示和警告四大类标志,采用YOLO标准格式标注,支持目标检测和图像分类任务。数据经过人工精细化标注,场景多样性强,涵盖不同光照和天气条件。数据集按标准划分为训练集、验证集和测试集,可直接用于主流深度学习框架。适用于自动驾驶、智能交通监控等场景,具有高质量标注、类别均衡和标准化程度高等优势
在项目选型会上,我也曾坚持用Python + Flask + WebSocket的方案。理由很充分:生态好、库多、开发快。“工控机重启后,你的Python环境能不能自动起来?“如果相机丢帧了,你的GIL锁会不会卡死整个线程?“我们要跟现有的SCADA系统集成,你们谁写过C#的DLL调用?那一刻我意识到,工业现场的“通用语言”是C# (.NET)。多线程优势:.NET的多线程模型在处理“采集、推理、
福井大学联合UBC等机构提出InvAD,创新性地采用"反演检测"替代传统扩散模型的"重建检测"范式。该方法通过3步DDIM反演将图像映射到隐空间,测量其与正常分布的偏离度来判断异常,避免了传统方法中噪声强度调参和多步去噪的瓶颈。实验表明,InvAD在MVTec-AD上达到99.0%的AU-ROC和88.1FPS的推理速度,比现有最快方法提速2.2倍,且无需调
XMOS在2026年嵌入式世界展上展示了边缘AI与智能音频融合的前沿解决方案,重点推出五大创新方向:1)生成式SoC技术实现音频DSP的快速开发;2)基于XCORE架构的边缘AI视觉方案;3)DNN降噪智能拾音系统;4)隐私优先的本地语音交互方案;5)低时延以太网音频传输。其xcore.ai处理器通过"AI+DSP+I/O+MCU"单芯片集成架构,在实时性、低功耗和开发便捷性上
教训:一开始我们试图用深度学习解决反光问题,调参调到吐血,效果依然不稳定。解决:花了 3000 块买了个同轴光源加偏振片,物理消除反光。瞬间,模型准确率从 85% 飙升到 99%。记住:光学解决的问题,别交给算法。工业 AI 不是炫技,而是解决问题。在这个项目中,我们没有使用最新的 Transformer 架构,也没有追求千亿参数的模型。用最合适的光学方案获取高质量图像;用最成熟的轻量级模型提取特
STM32 是意法半导体推出的一系列 32 位 ARM 架构微控制器,性能强大、资源丰富,广泛应用于各种嵌入式项目,咱们这个智能家居设计就靠它来挑大梁。
知名扫地机代码方案 某知名大厂扫地机代码适合需要学习项目与代码规范的工程师硬件驱动包含 陀螺仪姿态传感器bmi160、电源管理bq24733等。软件驱动包括 IIC、PWM、SPI、多路ADC与DMA、编码器输入捕获、外部中断、通信协议、IAP升级、PID、freertos操作系统等。代码注释清晰、代码规范好、每个函数必有输入输出范围参数解释。最近研究了某知名大厂的扫地机代码方案,不得不说,对于渴
本文介绍了一套高质量标注的狗狗6种行为识别数据集,包含近3000张图片,涵盖吠叫、进食、趴卧等核心行为。数据集采用YOLO格式标注,已划分为训练集、验证集和测试集,适用于宠物智能监护、行为分析等场景。作者分享了使用心得,包括样本均衡处理、背景泛化优化和轻量化部署建议。该数据集旨在降低宠物AI应用开发门槛,推动计算机视觉在宠物经济中的落地应用。
YOLO X Layout是百度开源的专门用于文档布局分析的YOLO模型,专门训练来检测文档中的标题、正文、表格、图片、列表等元素,比传统的OpenCV轮廓检测准确率高太多,尤其是复杂的多栏文档、倾斜扫描件、低清晰度的扫描件,准确率能达到98%以上。PDF转图片:把扫描版PDF的每一页转成高清图片布局分析:用YOLO X Layout检测页面中的标题(一级标题、二级标题、三级标题)、表格、正文、图
用交通场景的数据集训练YOLO12-N,检测车辆、行人、红灯、车道线4类目标,训练完之后mAP@0.5达到96.8%。边缘AI网关是未来智能感知的主流方向,成本低、延迟低、隐私性好,不管是智能交通、安防监控还是工业检测,都能大大降低落地成本。我这套方案已经在多个城市的智慧交通项目落地,效果稳定,成本只有商用方案的1/10,非常适合中小项目落地。如果你们也有边缘端实时检测的需求,强烈建议试试这个方案
算涌云发布2025战略白皮书,宣布平台日均Token处理量突破50亿,服务全球1.5万家企业。针对AI2.0时代的"模型碎片化"问题,公司推出"双站物理隔离"架构和SYNN™智能调度矩阵,通过标准化API实现"万模归一"的算力聚合服务。中国站聚焦国产合规模型,国际站连接全球前沿AI,SYNN™技术可帮助企业节省40%算力成本。作为AI基础
本文以笔记的形式做一个个人记录,cvzone的关键点获取比起MTCNN速度快了很多倍,在轻量级设备上效果很好,为了我后面利用这些坐标去进行人脸识别。:现在通过cvzone的meshmoudle进行人脸网格478关键点检测facesMoudle中利用这些关键点可以在skimage中的五点仿射,将人脸裁剪,完成人脸对齐。:常见的MTCNN人脸对齐使用了大量系统资源,但是检测人脸的效率不高(如人脸角度过
中国新能源产业正从技术领先向质量管理跃升,检测数据正成为核心竞争力。
依托强大的海思 Hi3519AV100 处理器平台,NeoCAM不仅提供了卓越的硬件基础,更是一个强大的开放式 AI 计算平台,为二次开发赋能,助力客户构建专属的高速视觉解决方案。系统集成商或开发者可以基于 NeoCAM 平台,高效集成其成熟的 LPR 算法库,快速构建高速、高精度的车牌识别系统,应用于卡口、停车场、智慧园区等场景,提升稽查效率和通行体验。生产线上的机械臂高速运动、产品传送带上的快
AI智能体视觉检测在工业质检领域的应用正日益广泛,已从传统单一缺陷识别向"感知-决策-执行"闭环的智能体形态演进。
本模型电流环采用复矢量解耦控制,能够实现dq轴电流解耦,动态性能好,采用离散化搭建,可直接根据写出C代码应用在实际项目中,解耦效果好。附带参考文献和在电力电子和电机控制领域,电流环的控制策略对于系统的性能起着至关重要的作用。今天咱们就来聊聊采用复矢量解耦控制的电流环,这可是个能显著提升系统动态性能的好方法。
本文从工业PCB瑕疵检测的实际落地需求出发,完整拆解了Java集成ONNX Runtime+YOLO实现实时检测的全链路,从模型导出、环境搭建、核心代码实现,到工业级的性能优化和踩坑复盘,最终实现了CPU端35FPS、GPU端83FPS的实时检测性能,精度达到98.2%mAP@0.5,完全满足工业产线的落地要求。这个方案的核心优势,就是完美兼容现有的Java上位机系统,不用额外搭建Python推理
摘要:Judo是一种针对工业异常检测的多模态推理模型,通过三阶段渐进训练解决通用大模型在工业领域的知识不足问题。首先通过并置分割学习建立视觉对比能力(准确率提升至73.01%),然后注入领域知识(准确率79.82%),最后采用多奖励GRPO统一视觉和推理(最终准确率81.20%)。实验表明,无领域知识的CoT推理会使准确率下降9.5%,验证了领域知识的重要性。在MMAD基准测试中,Judo超越GP
平台通过结构化的知识工程,将特定行业的业务规则、法规标准、操作规范、历史案例、专业术语体系注入大模型,使智能体在面对行业特定问题时,能够以领域专家的知识框架进行推理,而非依赖通用模型的泛化猜测。一个典型的工业巡检场景,涉及的信号类型包括:摄像头采集的视频图像、传感器采集的温湿度与气体浓度数据、设备工作状态的仪表监测数据、历史生产记录与维护日志,以及操作人员的行为轨迹。,智能体基于已训练的场景模型,
当智能体通过摄像头获取图像信息后,系统能够实时识别物体、定位目标、检测缺陷,并根据分析结果指导智能体做出相应的动作反馈,形成“感知—认知—决策—执行”的闭环。作为工业4.0与智能制造的核心驱动力之一,这一技术不再局限于简单的图像捕捉与处理,而是赋予了机器“看懂”与“理解”的能力,使其能够像人类专家一样进行判断与决策。虽然目前仍面临数据、算力及算法透明度等挑战,但随着大模型技术、边缘计算及高性能芯片
EdgeSight 是一款面向Windows + 树莓派的跨平台实时目标检测与视觉伺服系统,采用 PySide6、OpenCV、ONNX Runtime/NCNN 实现,支持 YOLOv5/YOLOv8 模型。项目从初始 0.7 FPS 基线出发,先后尝试 INT8 量化、模型选型、系统参数调优,最终通过NCNN 引擎 + YOLOv5n方案,在树莓派 4B 上实现1.8~2.0 FPS 稳定检测
本文介绍了一套用于羊行为识别的计算机视觉数据集,包含约4500张已标注图片,覆盖"活动"、"进食"和"躺卧"三类核心行为。数据集采用YOLO格式标注,结构清晰规范,适用于智慧养殖、畜牧业数字化管理等AI应用场景。文章详细阐述了数据特点、使用建议和实战经验,指出该数据集在农业AI领域具有显著应用价值,可直接用于YOLO模型训练和行为识别项目
YOLO / RF-DETR 打速度和中精度,大模型打泛化和换型效率。未来 2–3 年,工业视觉很可能形成 骨干检测 + 大模型兜底 的双引擎架构。
本文介绍了一个包含约3000张标注图片的抽烟行为检测数据集,适用于YOLO模型训练。该数据集专注于单一行为类别(smoke),覆盖多场景、复杂光照条件和多样化人群,采用标准YOLO标注格式。文章分析了数据集特点、适用场景(如智慧安防、禁烟监管)和使用建议,包括模型选择、数据增强策略和训练参数设置。作者指出,虽然该任务是单类别检测,但行为识别比普通目标检测更具挑战性,数据质量直接影响模型效果。该数据
本文介绍了一个专用于猫行为识别的YOLO训练数据集,包含约2000张高质量标注图片,覆盖猫咪四种主要行为状态(趴卧、坐姿、睡眠、站立)。数据集采用标准YOLO格式标注,包含多场景、多光照条件下的真实图像,适合用于智能宠物监控、健康分析等应用场景。文章详细说明了数据集结构、标注格式和使用建议,并分享了训练参数设置、数据增强策略等实战经验,指出该数据集虽然规模不大但标注精准,通过合理训练策略可获得良好
反无人机技术正从科幻走向现实,成为保卫我们天空的隐形盾牌。从检测原理到反制手段,创新如被动雷达、激光武器和声波干扰器,不仅应对当前威胁,还为未来智能空域铺路。
视频监控系统已从传统的“看得见”向“看得清、看得懂、主动防”演进。本文结合当前安防领域的技术发展趋势,系统梳理了视频监控在成像质量优化、智能分析能力提升以及特殊场景(如核设施)应用中的关键技术路径。重点探讨了IR-CUT双滤光片对图像色彩保真度的影响、基于人工智能的智能视频分析机制,以及超高清全景监控在高安全等级场所面临的算力、存储与兼容性挑战。
摘要:加拿大Concordia大学团队提出的MedCLIPSeg(CVPR 2026)创新性地将概率建模引入医学图像分割。该模型通过文本提示引导分割,采用概率化注意力机制生成不确定性地图,在仅使用10%标注数据时即达到传统方法全量数据的性能(DSC 81.10%)。实验覆盖16个数据集、5种模态,跨域泛化性能提升显著(OOD DSC提升8-15个百分点),不确定性地图与专家分歧区域高度吻合(相关系
《RacketVision:首个多球拍运动联合分析基准》摘要 上海人工智能实验室等机构提出的RacketVision是首个同时标注球位置和球拍姿态(边界框+5关键点)的多运动基准数据集,覆盖乒乓球、网球和羽毛球942场职业比赛、43.5万帧数据。该研究突破现有数据集仅追踪球的局限,定义了球追踪、球拍姿态估计和球轨迹预测三个递进任务。关键发现表明:多运动联合训练使球追踪mAP提升14.6%-19.2
本文详细介绍了YOLOv8的安装配置流程。首先需要安装Anaconda并创建Python3.10虚拟环境,建议有NVIDIA显卡的用户配置CUDA和cuDNN以启用GPU加速。接着安装PyTorch(根据硬件选择GPU或CPU版本),并通过pip安装ultralytics库。最后提供了图片检测和实时摄像头检测的demo测试方法,以及常见问题的解决方案。配置完成后,用户可以尝试更换不同大小的模型或训
模型:是否已转为 ONNX 并在 C# 中验证过精度?性能:FPS 是否满足产线节拍?(预留 20% 余量)稳定性:连续运行 24 小时,内存是否平稳?有无泄漏?异常处理:拔掉相机网线,程序会崩吗?(应报警并重连)权限:是否去除了管理员运行依赖?日志:是否有完整的黑匣子日志,便于远程排查?文档:是否提供了操作手册和故障代码表?C#+YOLO的组合,凭借 C# 强大的工程化能力和 YOLO 领先的算
本文介绍了一个包含3500张标注图像的PCB印刷电路板表面缺陷检测数据集,覆盖6类常见工业缺陷(漏孔、鼠咬、开路等)。数据集采用YOLO标注格式,标注精度达像素级,包含训练/验证/测试集划分。该数据集适用于工业质检、小目标检测研究和AI视觉项目开发,能有效解决传统人工检测效率低、精度不足的问题。文章还提供了数据集下载链接和使用建议,包括模型选择、小目标优化策略等,为工业视觉检测任务提供了高质量数据
视觉检测
——视觉检测
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net