
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出SPGFusion方法,利用CLIP和DINO预训练模型的语义先验实现红外与可见光图像的自适应融合。通过关联池化融合CLIP的全局语义和DINO的局部特征,生成无标注语义先验。设计语义自适应融合网络(包含CSAF和PSAF模块),利用跨模态注意力动态调整特征,突出关键语义信息。实验表明,该方法在视觉质量和语义精度上优于现有方法,且降低了对人工标注的依赖。主要创新在于引入预训练模型的语义先验
本文提出了一种任务引导、隐式搜索与元初始化深度模型(TIM Fusion)用于图像融合。该模型通过引入下游任务约束指导无监督融合学习,设计隐式架构搜索自动挖掘高效融合网络,并采用前置任务元初始化提升模型泛化能力。实验表明,TIM Fusion在视觉增强和语义理解等任务中表现出色,验证了其有效性和灵活性。主要创新点包括:任务引导的融合学习策略、高效的隐式架构搜索方法以及多任务快速适配的元初始化技术。
现有方法多采用任务特定框架,导致跨任务泛化能力受限。本文提出融合导向型红外可见通用框架IVGF,可轻松扩展至多种高级视觉任务。首先采用SOTA红外可见基础模型提取通用表征,继而设计特征增强模块和标记增强模块分别优化特征图与标记的语义信息。创新性地引入注意力引导融合模块,通过探索双模态互补信息实现高效融合。同时采用切割混合增强策略进行数据增强,进一步提升模型挖掘双模态区域互补性的能力。本文提出的方法
在深度学习技术飞速发展的推动下,YOLO系列为实时目标检测器树立了新标杆。此外,基于Transformer的架构已成为该领域最强大的解决方案,通过大幅扩展模型的感受野实现了显著性能提升。然而这种改进也带来了代价——自注意力机制的二次复杂度增加了模型的计算负担。为解决这一问题,论文提出了一种简单却有效的基线方法Mamba YOLO。结构化状态空间序列模型S4和 Mamba,其根植于 SSM ,两者均







