登录社区云,与社区用户共同成长
邀请您加入社区
跨模态目标检测旨在融合来自不同模态的互补信息以提高模型性能,从而实现更广泛的应用。然而,传统的基于CNN或Transformer的跨模态融合方法不能很好地处理伪目标信息问题,导致模型注意力分散从而降低目标检测性能。在本文中,我们研究了一种新的跨模态融合方法,通过在隐藏状态空间中关联跨模态特征,基于改进的Mamba和门控注意力机制。我们提出了Fusion - Mamba Block ( FMB ),
随着 AI 技术的发展,背景替换已经不再是专业设计师的专属技能,这些轻量化的工具把复杂的修图操作做了简化,哪怕是没有修图基础的新手,也能在短时间内完成专业效果的处理,无需花费大量时间学习专业软件,也能高效完成图片的处理。以上这 5 款工具覆盖了不同的使用场景,不管是日常的图片修改,还是工作中的批量处理,都能找到适合的选择,希望能帮大家解决图片背景替换的需求。
文档解析技术对比与选型指南 摘要: 本文深入分析了影响RAG系统质量的关键瓶颈——文档解析技术,对比了当前主流的三种解决方案。重点介绍了MinerU Skill的创新机制,它通过AI自主决策实现智能文档解析,支持Flash模式(快速提取)和精准模式(多模型管线处理)。文章对比了MinerU Skill与LlamaParse云服务、IBM开源的Docling以及企业级的Unstructured方案,
3. C#实现目标检测以下是一个C#实现,结合OpenCvSharp实现基于传统方法的模板匹配目标检测(模拟贴片机中的焊点定位),并简要介绍如何集成深度学习模型(如YOLO)。结合你之前的问题(卷积和图像识别在半导体贴片机中的应用),我将详细讲解目标检测技术的核心概念、在贴片机中的应用场景,并提供C#实现的示例代码和测试用例,重点突出卷积在目标检测中的作用。2. 目标检测在半导体贴片机中的应用在半
本文提出了一种纯Java部署YOLO模型的工业视觉检测方案,解决了传统Python部署在工业场景下的五大痛点:依赖地狱、打包困难、性能损耗、集成复杂和维护成本高。该方案基于ONNX Runtime和JavaCV实现,具有零依赖、高性能、易集成、跨平台和高可靠等核心优势。文章详细介绍了整体架构设计、技术栈选型,并提供了可直接运行的Maven依赖配置和核心代码实现,包括YOLO模型导出为ONNX格式的
一种高效的工业边缘缺陷检测方法YOLOv5s-GhostNet,通过轻量化网络结构(GhostConv、深度可分离卷积)将模型体积压缩50%,计算量降至8.2G FLOPs。创新性地采用知识蒸馏实现快速学习(50 epoch收敛),在保持97.91%精度和96.66% mAP的同时,使推理速度达294 FPS。实验表明,该方法在树莓派边缘设备上实现了实时检测,相比现有方法效率提升4倍,并通过端-边
25年12月来自华中科技、地平线和武汉大学的论文“DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving”。端到端自动驾驶中的轨迹规划扩散模型常常面临模式崩溃的问题,导致生成的轨迹趋于保守且同质化。尽管 DiffusionDr
26年4月来自华中科技、小米和澳门大学的论文“UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving”。视觉-语言-动作(VLA)模型近年来在自动驾驶领域崭露头角,有望利用丰富的世界知识提升驾驶系统的认知能力。然而,将此类模型应用于驾驶任务目前面临着空间感知和语义推理之间
本数据集是一个面向目标检测任务的专业级蚊子/苍蝇数据集,专门为**YOLO系列模型(尤其是YOLOv8)**设计,适用于科研实验与工程实践。专用蚊子苍蝇检测数据集(含背景样本)包含1400多张图片和1400多个yolo格式的txt文件。其中600多张是蚊子,600多张是苍蝇,还有200多张用于背景。该数据集用于基于yolov8模型的苍蝇蚊子检测系统。训练集图片数量: 576验证集图片数量: 145
结构体 MatchesInfo 包含了所有图像之间进行两两匹配的相关结构,Mat H 记录了两幅图像间的仿射变换矩阵,该矩阵是全景图像拼接的基础信息,特征点间匹配信息记录在 pairwise_mathes 中。首先将第 i 张图像上特征点映射到三维空间,然后再将三维空间点映射到第 j 张图像中,注意,两次映射使用了不同的映射矩阵!以上代码首先估计相机焦距,在 “全景图像拼接” 一文中,给出了根据仿
本文为计算机视觉综合实践项目实战分享,针对轻量化视觉模型精度与算力难以兼顾的痛点,基于 RTX 3060 6G 显卡,在 PASCAL VOC2012 数据集完成多标签分类 + 目标检测双任务落地。分类采用 MobileNetV2,mAP 达 82%;检测用 YOLOv5n/s 双模型对比,mAP@0.5 分别达 50.5%、60%,均超额完成基线要求。全文覆盖数据预处理、模型微调、算力适配全流程
一个3*4的矩阵包含了12个元素,由于一组各元素比值相同的变换对应一个齐次变换,因此该矩阵正好包含了11个自由度,主平面是经过相机中心且平行于像平面的平面(XY平面),很显然该平面上任意点都投影到像平面的无穷远点,2)已知图像上点x,根据相机模型,无法确定一个唯一的三维点,但可以确定一条经过相机中心到无穷远点的射线,矩阵K表达了相机相关属性,为相机内参,矩阵R,C表达了世界坐标系与相机坐标之间的关
上一篇聊了 CvEditor 的架构设计,这篇来聊更实际的问题:怎么写一个节点?从一个最简单的模糊节点开始,逐步过渡到需要加载模型的 YOLO 检测节点和带状态的跟踪节点。每个示例都附完整代码和我的踩坑经验。
本文提出了一种创新的医学图像分割级联架构,将目标检测与分割任务有机结合。针对医学影像病灶小、背景大的特点,作者指出传统全局分割方法存在显存消耗大、假阳性率高的问题。解决方案是先使用轻量级YOLOv11快速定位病灶区域,再对裁剪后的局部区域进行精细分割。这种"先检测后分割"的级联方法显著提升了分割精度,同时大幅降低计算资源需求,使消费级显卡也能处理高分辨率医学图像。该架构充分发挥
本文介绍了基于C#和YOLOv12的工业级机器视觉系统开发方案,重点解决Python部署的稳定性问题。系统采用全C#实现,包含工业相机SDK对接、ONNX模型推理、多线程优化和PLC通信等模块。架构采用分层设计,支持4路并行检测,在i5-12400F工控机上实现12fps稳定运行,准确率达99.5%,已通过3个月生产验证。文章详细分享了环境搭建、相机采集、模型转换等关键技术,提供可直接复用的工业解
随着大模型技术在垂直领域的进一步渗透,未来的回单识别系统将具备更强的推理能力和自适应学习能力,为企业财务自动化乃至整个金融生态的智能化转型提供坚实的技术底座。在这一进程中,技术的进步正悄然重塑着资金管理的效率边界。其中,银行回单作为资金流转的核心凭证,其处理效率直接关系到企业的资金安全与财务核算速度。随着人工智能与深度学习技术的成熟,基于深度学习的银行回单识别系统应运而生,成为连接物理票据与数字财
【评测摘要】本次对比测试了GLM-5.1和DeepSeek-V4-Pro两款AI模型在10项测试任务中的表现。结果显示二者通过率均为100%,但DeepSeek-V4-Pro平均速度快14.6%(60.1s vs 70.4s),Token消耗节省32.5%(22,748 vs 33,690)。DeepSeek在性能测试方案等复杂任务中优势明显(快30.5秒),而GLM-5.1在API脚本生成方面更
在计算机视觉目标检测领域,YOLOv10作为YOLO系列的最新力作,在精度和速度上取得了令人瞩目的突破。然而,在实际应用场景中,模型对遮挡、光照变化、噪声干扰等复杂环境的鲁棒性仍有待提升。本文提出了一种新颖的改进方案——融合SA(Stochastic Attention,随机注意力)模块的YOLOv10鲁棒性增强方法。SA模块通过引入随机化机制,在训练过程中动态调整注意力权重,有效缓解了过拟合问题
YOLOv10作为YOLO系列的最新力作,在速度和精度平衡上达到了新高度。但其C2f模块中使用的传统卷积(3×3/5×5)难以捕捉遥感图像中目标的长程依赖关系和全局语义信息。大核注意力机制通过动态重加权和扩大感受野,能够显著提升遥感检测性能。本文将LSK(Large Separable Kernel Attention,大核分离注意力)机制无缝集成到YOLOv10的Neck层,设计出LSK-YOL
在目标检测领域,YOLO系列模型凭借其出色的速度与精度平衡,始终占据着重要地位。然而,传统YOLOv10模型在处理复杂场景下的多尺度目标时,仍存在特征表达能力不足、关键信息丢失等问题。本文提出一种基于GAM(Global Attention Mechanism,全局注意力机制)的YOLOv10改进方案,通过引入多层次特征融合模块,显著提升了模型对重要特征的关注度。实验结果表明,改进后的模型在COC
在目标检测任务中,定位精度往往决定了模型的实际应用价值。YOLOv10作为YOLO系列的最新力作,虽然在速度和精度之间取得了优秀的平衡,但在小目标检测和密集场景下的定位能力仍有提升空间。本文提出了一种基于Coordinate Attention(CA)坐标注意力机制的YOLOv10改进方法,通过增强模型对位置信息的感知能力,显著提升了目标定位精度。本文将从CA注意力机制的原理出发,详细阐述如何将其
在目标检测领域,YOLOv10凭借其实时性和高精度已成为工业界和学术界的首选模型之一。然而,传统的YOLOv10在全局特征建模方面存在天然缺陷——其基于卷积的局部感受野限制了长距离依赖的捕获能力。本文提出了一种创新性的改进方案:将External Attention(外部注意力机制)无缝集成到YOLOv10的主干网络中,构建出YOLOv10-EA-Net。实验证明,该方法在保持实时性的同时,显著提
目标检测是计算机视觉领域的核心任务之一,而小目标检测一直是该领域最具挑战性的难题。随着深度学习技术的发展,YOLO系列算法凭借其出色的速度与精度平衡,成为工业界和学术界广泛应用的检测框架。YOLOv10作为该系列的最新成员,在继承前人优点的基础上,进一步优化了网络结构和训练策略。然而,标准YOLOv10在检测小目标时仍存在特征信息丢失、背景干扰等问题。本文提出了一种融合CBAM(Convoluti
在计算机视觉领域,形变目标的检测一直是一个具有挑战性的任务。传统的目标检测方法通常依赖于固定的几何结构,难以有效处理具有不规则形状、非刚性形变或部分遮挡的目标。本文提出了一种基于YOLOv10结合DA(Deformable Attention)可变形注意力机制的改进方法,显著提升了模型对形变目标的检测能力。DA可变形注意力机制通过引入可学习的偏移量,使模型能够自适应地调整采样点位置,从而更好地捕捉
在计算机视觉领域,目标检测任务一直是研究的热点与难点。YOLOv10作为YOLO系列的最新成员,凭借其出色的实时性能和检测精度,已经在工业界和学术界获得了广泛应用。然而,如何在保持模型轻量化的同时进一步提升特征表达能力,仍然是一个值得深入探索的问题。本文提出了一种创新的YOLOv10改进方法——引入SimAM(Simple, Parameter-Free Attention Module)无参数注
在目标检测领域,YOLO系列算法凭借其卓越的检测精度与实时性能,已经成为工业界与学术界应用最为广泛的算法架构之一。从最初的YOLOv1到如今的YOLOv10,该系列算法经历了多次迭代更新,每一次更新都在精度、速度、模型体积等多个维度带来了重要突破。YOLOv10作为YOLO家族的最新成员,在保持实时性优势的同时,通过引入更高效的特征提取网络、优化的训练策略以及先进的后处理技术,进一步提升了检测精度
在实时目标检测领域,YOLO系列模型凭借其卓越的精度与速度平衡始终占据主导地位。然而,随着模型复杂度的提升,YOLOv10虽然在精度上取得了突破,但其参数量和计算量仍对边缘设备部署构成挑战。本文提出了一种创新的改进方案——将FasterNet轻量级骨干网络引入YOLOv10架构,替代原有的CSPDarknet或ELAN骨干,显著降低模型计算开销的同时保持甚至提升检测精度。FasterNet的核心创
本文提出了一种创新的YOLOv10改进方法,通过引入ConvNeXt-V2自监督学习框架对骨干网络进行骨干预训练,显著提升了模型在有限标注数据场景下的特征表达能力和检测精度。ConvNeXt-V2采用了先进的FCMAE(Fully Convolutional Masked Autoencoder)自监督学习策略,能够在大规模无标签图像数据上学习到丰富的视觉表征。本文将这一预训练权重迁移至YOLOv
在实时目标检测领域,YOLOv10作为最新一代YOLO系列模型,在检测精度和速度之间取得了出色的平衡。然而,随着工业应用对实时性要求的不断提高,骨干网络的计算效率仍有优化空间。本文提出将RepVGG的重参数化结构引入YOLOv10的骨干网络中,通过多分支拓扑训练和单路径结构推理的策略,实现检测速度的显著提升。实验结果表明,改进后的YOLOv10在COCO和VisDrone数据集上分别取得了12.7
YOLOv10作为目标检测领域的最新力作,在速度和精度之间取得了卓越平衡。然而,面对多尺度目标(特别是小目标)和复杂背景场景时,传统卷积的感受野限制依然存在。本文提出了一种创新改进方法——将InceptionNeXt中的多尺度卷积思想引入YOLOv10的骨干网络与颈部网络,通过在关键层替换标准卷积为InceptionNeXt Block,显著提升了模型对不同尺寸目标的感知能力。实验表明,改进后的Y
在计算机视觉领域,目标检测始终是核心研究方向之一。本文提出了一种创新的目标检测框架——PVTv2-YOLOv10,该框架将金字塔视觉Transformer(Pyramid Vision Transformer V2, PVTv2)与YOLOv10有机统一,构建了全新的特征提取与融合范式。通过引入PVTv2的多尺度注意力机制与空间缩减策略,我们的模型在保持YOLOv10实时检测优势的同时,显著提升了
目标检测作为计算机视觉领域的核心技术之一,在自动驾驶、安防监控、工业质检等场景中有着广泛应用。YOLO系列模型凭借其出色的速度-精度权衡,始终占据着实时目标检测领域的重要地位。YOLOv10作为YOLO系列的最新成果,通过引入一致的双重分配策略、整体效率-精度驱动的模型设计等创新,进一步提升了检测性能。然而,传统YOLOv10的骨干网络仍以卷积神经网络(CNN)为主,其核心在于通过局部感受野逐层提
目标检测作为计算机视觉领域的核心任务之一,在自动驾驶、安防监控、工业质检等场景中具有广泛应用。YOLO系列算法凭借其优异的实时性与检测精度,成为了工业界和学术界的主流选择。最新发布的YOLOv10在继承前代优势的基础上,引入了更多创新设计,但在特征提取能力上仍有提升空间。本文提出了一种融合ConvNeXt模块的YOLOv10改进方案,通过引入现代卷积神经网络的设计理念,显著增强了模型的特征表达能力
目标检测作为计算机视觉领域的核心任务之一,在自动驾驶、安防监控、工业质检等场景中具有广泛应用。YOLO系列算法凭借其卓越的检测速度与精度的平衡,成为工业界最受欢迎的实时目标检测框架。YOLOv10作为该系列的最新成员,在模型架构上进行了全面优化,但依旧采用传统CNN风格的骨干网络。Swin Transformer作为Vision Transformer的代表性工作,通过层级化设计与移位窗口注意力机
租用GPU云服务器进行深度学习(AutoDL,超保姆级,适用新手)
对于 MobileNetV2 这种深度可分离卷积构成的网络,特征图的“空间信息”在压缩过程中极易丢失。CBAM 通过 7 \times 7 的大核卷积重新拾取了物体的几何轮廓信息,这在 VOC 这种背景复杂的分类任务中至关重要。对于 MobileNetV2 这种“窄”网络(如第一层只有 32 通道),过重的注意力模块会引入过多的非线性变换,破坏了原始预训练权重所构建的特征流。SE 再次进行通道间的
本数据集包含完整的原始图片文件,分为暴力场景和非暴力场景两个主要类别,为研究人员和开发者提供了丰富的视觉素材。这些数据不仅可以用于训练深度学习模型,还可以应用于安全监控系统、公共安全预警、视频内容审核等多个领域,具有重要的科研价值和实用意义。
介绍:这个是一个视觉分割的“通用基础模型(Foundation),由Meta发布。优势:具有强大额零样本(Zero-shot)推理能力,能通过点、框(Bounding Box)等提示词(Prompt)识别几乎任何物体。局限性:在面对特定的物体是,默认权重的边缘精度往往达不到工业要求。基线模型 Baseline SAM : https://arxiv.org/abs/2304.02643SAM模型由
2026年5月将在中国多个城市举办30余场国际学术会议,涵盖人工智能、大数据、物联网、新能源等多个前沿科技领域。重点会议包括:5月8-10日在无锡举办的IEIT2026互联网与教育信息技术会议,5月15-17日上海的ICBAR2026大数据与风险管理会议,5月22-24日广州的ISPPAI2026信息安全与隐私保护会议,以及5月29-31日西安的航空航天ICAPC2026会议等。这些会议为学者提供
本文基于YOLO26目标检测算法构建了一套花卉识别检测系统,旨在实现对13种常见花卉(包括Common Lanthana、Hibiscus、Jatropha、Marigold、Rose、champaka、chitrak、honeysuckle、indian mallow、malabar melastome、shankupushpam、spider lily、sunflower)的自动识别与定位。系
摘要:微调是深度学习中基于迁移学习的重要技术,利用预训练模型在小规模目标数据集上进行二次训练,可显著降低训练成本。其核心优势包括:节省算力、提高数据利用率和提升模型性能。微调步骤包括加载预训练模型、修改输出层、初始化新层和继续训练。常用策略有全量微调、冻结微调和部分微调。实验表明,微调模型相比从头训练模型具有更快的收敛速度和更高的准确率。该技术通过复用预训练模型的特征提取能力,使深度学习在工业应用
本文提出了一种基于C#和YOLOv12的工业视觉一体化解决方案,旨在解决传统系统割裂、开发门槛高、成本昂贵等问题。该系统整合了物料分拣、定位引导和缺陷检测三大核心功能,采用.NET 8和YOLOv12技术组合,充分发挥C#在硬件集成、开发效率方面的优势,以及YOLOv12在速度、精度上的工业级特性。文章详细介绍了系统架构设计和C#调用YOLOv12模型的三种方法,重点阐述了使用ONNX Runti
很多人总以为,论文通过的关键是“写得多好”。有多稳。评审意见少,不一定代表论文最好,但很可能说明:大问题不多风险可控老师已经基本放心剩下的只是收口和优化尤其现在,除了内容和结构,表达方式和 AI 风险也越来越会影响老师的第一印象。提前用小程序WriterPro这类工具看一眼 AI率 和表达风险,把那些容易让老师额外警惕的地方先优化掉,很多时候会比你单纯再多写两页更有效。
汇总整理摘抄自相机标定:从世界坐标系到图像像素坐标系转换过程解析四大坐标系与内外参世界坐标系、相机坐标系、图像坐标系之间的关系世界坐标系,相机坐标系,图像坐标系,像素坐标系相机模型 + 世界坐标系+相机坐标系+图像坐标系相机模型中的世界坐标系究竟指什么?老司机帮忙解释下摄像头的世界坐标系?像素坐标系到世界坐标系的转换【相机标定02】从世界坐标系到像素坐标系文章目录1 坐标系简介2 图像物理坐标系与
柔性电子皮肤的分布式触觉信号融合技术正从实验室走向产业化,其发展需跨学科协同(材料科学、微电子、AI算法)。随着神经形态硬件与边缘智能的进步,未来触觉感知系统将实现更高能效比与类人智能,推动人机交互进入全新维度。
计算机视觉
——计算机视觉
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net