logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【YOLO11-MM 多模态目标检测】多尺度稀疏交叉注意力 (MSC)特征融合、抛弃Concat、多尺度特征和小目标特征涨点起飞

本文提出了一种基于多尺度稀疏交叉注意力(MSC)的YOLO11-MM多模态目标检测框架改进方法。通过在P4和P5层特征之间引入MSC模块,实现了红外与可见光特征的高效融合。MSC结合多尺度上下文建模和Top-K稀疏策略,有效抑制噪声干扰并提升目标检测精度。实验表明,该方法在FLIR、M3FD和LLVIP等多模态数据集上表现出色,具有工程友好性和场景适应性。文章详细介绍了MSC模块的实现原理、代码结

#目标检测#目标跟踪#人工智能
【YOLO11-MM 多模态目标检测】MSAA多尺度特征融合、轻量而且高效、抛弃Concat普通融合

本文提出了一种基于YOLO11-MM框架的多模态目标检测改进方法,通过引入多尺度注意力聚合模块(MSAA)实现红外与可见光特征的高效融合。MSAA模块采用多尺度卷积和空间/通道双注意力机制,有效提升了模型在复杂场景下的检测性能。实验在FLIR、M3FD和LLVIP等数据集上验证了该方法的有效性,特别是在处理目标尺度差异大、低对比度等挑战时表现突出。文章详细介绍了模块实现、代码集成和训练配置,为多模

#目标检测#人工智能#计算机视觉
【RTDETR-MM 多模态目标检测】融合CA/ECA/GAM注意力增强

本文研究了在RTDETR-MM多模态目标检测网络中引入CA、ECA和GAM三种注意力机制的方法。通过在不同阶段(前期、中期、后期)插入注意力模块,系统分析了其对特征表达能力和检测效果的影响。实验基于FLIR数据集子集,对比了三种注意力模块在不同位置的性能表现。CA模块适合早期特征对齐,ECA模块轻量高效适合中期通道筛选,GAM模块全局建模能力强适合后期语义增强。研究提供了详细的代码实现和配置方法,

#目标检测#人工智能#计算机视觉
多模态(RGB + IR)视觉数据集总结:LLVIP / M3FD / KAIST / FLIR / VEDAI

等领域具有重要作用。红外图像在低光/夜间场景具有更高鲁棒性,而可见光图像拥有更丰富的纹理信息,通过 RGB + IR 的融合或协同学习,可显著提升模型性能。并提供统一的数据集组织结构示例。

#目标跟踪#人工智能#计算机视觉 +2
到底了