登录社区云,与社区用户共同成长
邀请您加入社区
工业设备点检是保障生产安全的核心环节,但传统人工点检存在效率低、漏检率高、安全风险大等问题。本文提出基于YOLOv11的视觉检测方案,通过分层架构实现自动化点检系统。YOLOv11凭借速度快(125FPS)、精度高(99.8%)、模型小(5.8MB)等优势,成为工业检测首选。系统采用数据增强(10倍扩增)、锚框优化等技术提升性能,支持多种部署方式。相比人工点检,该方案可实现24小时不间断作业,检测
通过以上的改进方法,我们成功提升了模型的表现。这只是一个开始,未来还有更多优化和技术深挖的空间。在这里,我想隆重向大家推荐我的专栏——<YOLO26改进-论文涨点——点击跳转看所有内容,关注不迷路!这个专栏专注于前沿的深度学习技术,特别是目标检测领域的最新进展,不仅包含对YOLO26的深入解析和改进策略,还会定期更新来自各大顶会(如CVPR、NeurIPS等)的论文复现和实战分享。为什么订阅我的专
本文介绍了上下文工程(Context Engineering)的概念及其在大型语言模型(LLM)应用中的重要性。上下文工程旨在优化有限上下文窗口下的token效用,通过精心选择和管理上下文内容来维持模型的高效运行。文章探讨了四种关键策略:1)上下文卸载与检索,将信息存储在外部系统并按需获取;2)上下文摘要,对历史对话进行有损压缩;3)上下文隔离的多智能体架构,通过子智能体分担任务;4)KV缓存技术
本文介绍了如何将YOLO26的上采样模块替换为DSUB来提升特征提取效果。主要内容包括:1)DSUB模块的代码实现步骤,包括新建模块文件、修改初始化文件、添加配置文件等;2)在YOLO26中集成DSUB的具体方法,包括模型注册和训练配置;3)改进后的模型性能分析,展示了GFLOPs的变化;4)进阶建议,如结合其他注意力机制进一步优化;5)完整代码分享。该教程详细说明了从理论到实践的完整流程,即使是
《室内人员无感定位与连续轨迹重建技术白皮书》核心摘要 镜像视界首创的纯视觉无感定位技术突破传统定位六大瓶颈,通过SpaceOS空间操作系统实现: 技术革新:采用"像素即坐标"理念,复用普通监控相机实现厘米级定位(静态≤3cm/动态≤5cm),端到端延迟≤50ms,轨迹连续率≥99.9% 五大优势: 无感体验:零标签/基站/穿戴设备 轨迹连续:遮挡1秒自动恢复 低成本部署:复用现
本文系统讲解了深度学习在计算机视觉(CV)领域的核心技术与应用。主要内容包括:1) 图像增广技术解决小数据问题;2) 微调预训练模型实现迁移学习;3) 目标检测技术从分类到定位;4) 语义分割实现像素级分类;5) 风格迁移将照片转化为艺术风格;6) Kaggle图像分类竞赛实战。文章详细解析了SSD、R-CNN、FCN等经典模型,并提供了7天学习计划和避坑指南,涵盖从基础理论到工业应用的完整知识体
OpenAI最新推出的GPT-Image-2在图像生成领域取得突破性进展,其Elo评分1512分,领先第二名242分。该模型采用全新架构,实现语言理解和图像生成的同步处理,避免了传统模型的信息损耗问题。三大核心优势包括:99%的中文文字渲染准确率、精准的指令遵循能力以及丰富的世界知识储备。模型提供Instant和Thinking两种模式,后者支持多步推理和自检修正。API接入简单高效,支持从快速草
Gemini 3.1 Pro实战测评:五大核心场景深度解析 Google最新发布的Gemini 3.1 Pro在性能指标上实现重大突破,ARC-AGI-2推理测试达77.1%,较上代提升超一倍。通过实测发现其五大核心优势场景: 超长文档处理:百万级token窗口可一次性解析500页技术手册,成本仅0.5美元 多模态分析:原生架构使图表数据提取准确率达88%-90% 代码审查:SWE-Bench测试
本文介绍了一种基于Java生态的YOLO多任务解决方案,解决了传统Python部署在工业场景中的痛点。文章从技术选型、架构设计到具体实现进行了详细阐述: 技术选型上推荐ONNX Runtime Java + JavaCV组合,兼顾性能和跨平台需求 设计了分层模块化架构,支持目标检测、实例分割、姿态估计和旋转检测四大任务 提供了完整的Maven依赖配置和模型转换脚本 实现了预处理、推理和后处理的核心
文章摘要: 本文综述了低轨卫星网络在6G通信中的地面-卫星信道特性。重点分析了多径传播效应,指出卫星信号受建筑物、地形等环境影响会产生瑞利衰落(无直射路径)或莱斯衰落(存在直射路径),但远距离多径分量可视为噪声。同时,针对卫星高速运动引发的动态多普勒效应,建立了数学模型(式41-42),量化了频移与卫星仰角、轨道高度的关系,揭示其在卫星过顶时达到峰值,并随轨道高度降低而减小。研究为6G星地链路设计
Playwright 是微软出品的浏览器自动化工具,支持 Chromium、Firefox、WebKit 三引擎。MCP(Model Context Protocol)是 Anthropic 推出的一种让 AI 模型与外部工具交互的开放协议。@playwright/mcp 就是两者的结合——一个 MCP 服务器,将 Playwright 的浏览器操控能力封装成 23 个标准工具,AI 代理可以通过
26年4月来自清华大学、阿里公司和蚌埠大学的论文“HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation”。尽管视觉-语言-动作 (VLA) 模型在短时域任务中表现出色,但在长时域操作任务中却系统性地失败。在当前的反应式执行设置下,仅通过延长上下文长度并不能解决这一问题:它源于执行循环中的
ORB_SLAM3ORB-SLAM3:一个准确的开源库,用于可视化、视觉惯性和多映射SLAMORB_SLAM3的作者:卡洛斯·坎波斯、理查德·埃尔维拉、胡安·J·戈麦斯·罗德里格斯、何塞·M·M·蒙蒂尔、胡安·D·塔尔多斯GitHub链接ORB-SLAM3 是首个能够使用针孔和鱼眼镜头模型,使用单目、立体和RGB-D相机执行视觉、视觉惯性和多图SLAM的实时SLAM库。在所有传感器配置下,ORB-
1️⃣ 明确任务(检测什么)2️⃣ 获取数据(找 or 自制)3️⃣ 标注数据(YOLO格式)4️⃣ 划分数据集5️⃣ 写data.yaml6️⃣ 训练模型7️⃣ 评估效果👉数据质量 > 模型本身。
本文详细介绍了YOLO环境搭建的四种安装方式及系统要求。首先概述了Python、PyTorch、操作系统和硬件的配置要求,并列出核心依赖清单。针对不同使用场景提供了安装流程图,推荐新手使用pip安装,开发者采用源码安装,生产部署选择Docker。详细说明了每种安装方式的具体步骤,包括GPU支持配置和可选依赖组安装。最后提供了完整的Docker镜像矩阵,涵盖GPU训练、CPU推理及ARM架构等不同场
本文介绍了Ultralytics YOLO框架的核心特性和架构设计。该PyTorch框架通过统一接口支持5种计算机视觉任务(检测、分割、分类、姿态估计、旋转框检测)和7个模型家族(YOLO/YOLOWorld/YOLOE/NAS/SAM/RTDETR)。采用分层架构设计,包含用户接口层、引擎层、模型层、神经网络层和数据层,通过Model类作为中央枢纽。项目结构清晰,提供从训练到部署的全流程工具链,
深度学习模型部署方案选型指南 本文对比了PyTorch、ONNX、TensorRT和OpenVINO四种主流模型部署方案。PyTorch适合原型验证,开发体验好但性能较差;ONNX作为跨平台中间格式,兼容性强但需配合运行时;TensorRT在NVIDIA GPU上性能最优,支持FP16/INT8量化;OpenVINO专为Intel硬件优化,CPU性能突出。测试显示,TensorRT在RTX 409
本教程详细介绍了如何将YOLO26的主干网络替换为RMT特征提取模块。主要内容包括:1) RMT模块的原理介绍;2) 分步骤实现代码修改,包括添加RMT.py文件、修改init.py、创建yaml配置文件、在task.py中注册模块;3) 提供了完整的可执行代码;4) 展示了改进前后的GFLOPs对比;5) 建议进一步结合其他注意力机制或损失函数优化模型。通过该改进方案,读者可以轻松实现YOLO2
GPT-Image-2是OpenAI推出的新一代图像生成模型,在文字渲染准确率(约99%)、指令遵循精度和世界知识深度方面表现突出。其创新架构实现了"边理解边画"的生成过程,避免了传统模型的信息压缩损耗。模型支持Thinking模式进行多步推理和自检修正,但仅对付费用户开放。API接入简单,支持多种参数调节(quality、size等),但定价较上代上涨约60%。实战技巧包括提
《GPT-Image-2高效使用指南》总结了该AI图像生成工具的三个优化层次:1)提示词模板化,通过结构化字段减少60%迭代次数;2)分步处理,先用low档草图验证再精修,降低成本60%;3)自动化质量检查,用GPT-4o自动评估图像质量。实测显示,采用模板化prompt可使文字渲染准确率达98%,单张token消耗降低25%,整体效率提升3-5倍。文章提供了产品海报、社交媒体配图等场景的具体模板
图像识别技术是计算机视觉的核心,通过分类、检测等任务实现图像内容理解。预处理包括灰度化、去噪、边缘检测等步骤,特征提取涵盖统计特征、频域特征等方法。模型训练需数据准备、特征工程和超参数调优,常用深度学习框架如PyTorch。评估指标包括准确率、F1值等,部署涉及容器化和持续集成。技术面临数据不平衡、算力需求等挑战,未来将向多技术融合方向发展。代码示例展示了能源优化模型的应用。
本文对比了Gemini3.1Pro和ChatGPTPlus的技术差异与适用场景。Gemini采用MoE架构,支持200万token上下文窗口,在写作流畅度、Google生态整合和长文档处理上占优;ChatGPT则在智能体自动化、复杂推理和创意写作上表现突出。测试显示两者差距不大但方向明确:Gemini适合商用写作和Google深度用户,ChatGPT擅长自动化流程和专业领域。建议用户根据具体需求选
本文探讨了在Java环境中部署YOLO目标检测模型的优化方法。针对Java生态与Python/C++生态的兼容性问题,提出从模型端到运行时的全流程优化方案。 在模型端,通过结构化剪枝(剪枝率0.4-0.5)、知识蒸馏和INT8量化技术,可将模型体积缩小4倍,推理速度提升2-3倍,精度损失控制在1%以内。其中INT8量化需使用100-500张校准图片进行静态量化。 在Java运行时端,重点优化ONN
OpenAI最新发布的GPT-Image-2在图像生成领域取得重大突破,其API接入仅需三步即可实现。该模型在文字渲染准确率(99%)、集成推理能力和世界知识方面表现突出,尤其擅长中文等非拉丁文字处理。相比上代产品,虽然API价格有所上涨,但其精准的指令执行能力使其成为产品图生成的理想选择。开发者需注意其可能带来的虚假信息风险,建议根据实际需求选择GPT-Image-2、Midjourney或St
在深度学习时代之前,人脸检测一般采用传统的、基于手动设计特征的方法,其中最知名的莫过于Viola-Jones算法,至今部分手机和数码相机内置的人脸检测算法,仍旧采用Viola-Jones算法。然而,随着深度学习技术的蓬勃发展,基于深度学习的人脸检测算法逐步取代了传统的计算机视觉算法。在人脸检测最常用的数据集——WIDER Face数据集的评估结果上来看,使用深度学习的模型在准确率和召回率上极大的超
以“极简、无感、稳定、无忧”为核心,不依赖任何外接定位硬件、不要求人员佩戴任何设备、不改造粮库现有设施,仅复用粮库已部署的安防监控摄像头,通过AI视觉算法与空间解算技术,实现人员实时定位、轨迹追踪、安全预警,让定位回归技术本质,彻底摆脱硬件束缚。粮库内粉尘弥漫、粮堆梁柱遮挡密集,UWB、RFID信号易被干扰、屏蔽,出现定位漂移、轨迹断裂、监管盲区等问题,定位精度大幅下降,无法实现全域、连续、精准的
方案以镜像孪生+无感定位为核心,依托自研NeuroRebuild™三维重建引擎与Pixel2Geo™像素-地理映射引擎,构建“无标签、无穿戴、无基站、零干预”的粮库人员轨迹全感知体系,实现复杂仓储环境下人员厘米级定位、连续轨迹追踪、三维实景复刻、智能风险预警,为粮库智能化巡检、安全管控与数字化转型提供国家级技术支撑,助力“藏粮于技”战略落地。- 引擎层:集成NeuroRebuild™三维重建引擎、
工业视觉检测:两大主流异常检测开源框架深度对比(PatchCore vs SPADE)
DeepSeek的论文《Thinking with Visual Primitives》通过引入点(point)和边界框(bounding box)机制,在多模态模型推理过程中实现了对视觉对象的显式引用。其核心价值并非简单地提升识别精度,而是将"视觉引用"这一隐含能力独立抽象为可训练机制,使模型能够明确指向并持续跟踪特定对象。尽管当前采用的点框表达存在局限性,但论文验证了Tra
🔥本文提出TMConv三角掩码卷积模块,通过上三角掩码限制卷积感受野,有效避免局部冗余信息和噪声干扰。该模块采用非对称卷积结构增强方向性信息建模能力,特别适用于复杂背景和目标边界模糊场景。相比传统方法,TMConv构建的菱形盲区结构更符合真实噪声分布规律,在保持细节信息的同时控制计算开销。实验表明,该模块能显著提升RT-DETR模型的目标检测精度与稳定性,且无需额外下采样操作。文章详细介绍了10
大家好,我是老张,做了三年多目标检测的算法工程师。今天想和大家聊聊一个比较头疼但特别有意思的问题——小目标检测,以及我是怎么在YOLOv10上通过一种“区域感知数据增强”的方法,把模型在小目标上的泛化能力硬生生提上去的。先说说背景吧。上个月接到一个项目,需要在无人机航拍的图像里检测行人、车辆和交通标识。数据集拿到手一看,好家伙,1024×1024的图像里,很多目标的尺寸只有十几个像素点,甚至更小。
大家好,最近在做目标检测项目时遇到了一个头疼的问题:模型训练到后期,loss死活降不下去,mAP卡在某个阈值动弹不得。其实这就是典型的难例挖掘问题——模型已经把简单的样本都学得差不多了,剩下的都是“硬骨头”。传统的hard negative mining虽然有效,但容易让模型在训练初期就陷入局部最优解。经过一段时间的挣扎和调研,我决定在YOLOv10的基础上引入课程学习(Curriculum Le
大概两个月前,我在做一个工业缺陷检测的项目,手头有大量的标注数据,但那些数据都是在实验室理想光照条件下采集的。真到了工厂现场,光线变化、背景杂乱、相机角度偏移,之前训练好的模型直接掉点30多个AP。重新标注现场数据?一张图标注成本三块钱,一万张就是三万块,还不算人工审核的时间成本。后来我翻了好多论文,什么CycleGAN、DA Faster RCNN、DDC方法都试了一遍,效果是有,但总觉得差点意
传统的交叉熵损失只关注类别边界的正确性,它不关心同类样本在特征空间中的分布是否紧凑,也不关心不同类之间的边界是否足够清晰。对正样本对的贡献进行密度加权:特征空间中密度高的区域(样本拥挤)贡献更小的权重,因为该区域已经学得够好了;alpha越大,模型对困难负样本的关注越强。可视化特征空间的t-SNE图可以发现,基线的裂纹样本散落在划痕样本中,而DACL让所有裂纹样本聚成了一个紧凑的簇。的核心思想是:
大家好,最近在做一个工业缺陷检测的项目,遇到了一个很头疼的问题——样本不平衡。我们的数据集里,正常样本占了85%,剩下的15%分散在6种缺陷类别中,最少的划痕类只占不到1%。直接用YOLOv10训练,模型直接“摆烂”,绝大多数缺陷都检测不到,mAP只有0.32。试过过采样、欠采样、Focal Loss、GHM Loss,效果都不太理想。过采样导致严重的过拟合,Focal Loss在极度不平衡下两个
去年年底接手了一个水下机器人自主避障的项目,甲方要求在水下浑浊环境中识别沉船、管道、礁石等目标。说实话,一开始我是想直接用YOLOv8的,但恰逢YOLOv10刚发布不久,抱着尝鲜的心态试了一下,结果发现推理速度确实提升明显,而且在小目标检测上比v8强了不少。折腾了两个月,踩了不少坑,今天就把这套从声呐图像预处理到YOLOv10改进的完整方案分享出来。先给心急的朋友看一眼最终效果:在我们自建的侧扫声
大家好,我又来更新了。前段时间一直在做自动驾驶感知方向的项目,踩了不少坑,也积累了一些经验。今天想跟大家分享一个我们刚刚做完的工作——把激光雷达点云投影到图像平面,用YOLOv10做三维检测的思路。为什么要做这个?其实纯视觉方案在自动驾驶中成本低,但深度信息不准;纯激光雷达方案精度高,但点云稀疏且缺乏纹理信息。所以很自然的想法就是把两者结合起来。网上很多文章讲融合,但要么理论讲得多代码少,要么代码
我查了一圈论文,现有的多模态融合方法主要有三类:前期融合(输入级融合)、中期融合(特征级融合)和后期融合(决策级融合)。考虑到YOLOv10的实时性优势,我选择在特征提取层做中期融合,也就是双流网络+注意力融合模块的方案。特征级融合让网络先各自提取模态特有特征,再学习如何融合,这样更合理。普通的RGB摄像头这时候就成瞎子了,换上热红外摄像头倒是能看见,但热图像纹理信息太少,白天又不好使。那能不能两
统一多模态模型 TUNA-2 直接在像素空间中执行多模态理解和视觉生成,无需依赖 VAE 编码器或潜在扩散。通过将统一的视觉语言主干与像素空间流匹配头相结合,TUNA-2 在单一框架内支持图像理解、文生图和图像编辑。
本文系统介绍了开源计算机视觉库 OpenCV 的核心概念与实战应用。首先概述了 OpenCV 的跨平台特性、发展历程及其在工业界与学术界的广泛影响力。随后,文章重点梳理了 OpenCV 中最常用的图像处理函数与方法,涵盖了图像的输入输出、显示与交互控制等基础操作;详细解析了图像加法、混合、缩放、平移及旋转等几何变换技术;并深入讲解了颜色空间转换、全局与自适应阈值二值化,以及腐蚀、膨胀、开闭运算等形
本文介绍了如何在星图GPU平台上自动化部署千问3.5-9B镜像,实现卷积神经网络(CNN)的快速搭建与调优。该镜像特别适用于计算机视觉任务,如图像分类和特征提取,帮助开发者高效完成模型训练与优化。通过星图GPU平台,用户可轻松部署并应用千问3.5-9B于实际场景,如医疗影像分析或工业质检。
本项目旨在设计并实现一个集成了前沿深度学习模型与现代化Web技术的综合性“小目标车辆检测与智能分析系统”。系统核心采用最新的YOLO系列模型作为检测引擎,通过集成与对比YOLOv8、YOLOv10、YOLOv11及YOLOv12四种高性能版本,为用户提供灵活、强大的小目标车辆检测能力。系统后端基于SpringBoot框架构建,采用前后端分离的架构模式,确保了系统的高内聚、低耦合与良好的可扩展性。前
人工智能大模型是一种能够利用大数据和神经网络来模拟人类思维和创造力的人工智能算法。它利用海量的数据和深度学习技术来理解、生成和预测新内容,通常情况下有数十亿乃至数百亿个参数,可以在不同的领域和任务中表现出智能拟人的效果。现在大模型火的不行,项目中如果没有大模型好像都缺少点啥?没办法要跟着时代进步,最近研究了一下开源的通义千问大模型,翻阅了大量文档,记录一下使用心得。我使用的是通义千问Qwen-VL
计算机视觉
——计算机视觉
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net