
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
近年来,一些基于Transformer的融合模型被提出用于全局特征提取。然而,这些方法要么是特征级融合模型,要么是图像级融合模型。这些基于Transformer的融合模型均未考虑信息交互,导致对互补信息的挖掘不足。在本文中,我们提出一种新颖的用于红外与可见光图像融合(IVIF)的端到端无监督交互式Transformer,称为ITFuse。它由**特征交互模块(FIMs)和特征重建模块(FRM)**

消融实验则验证了各个核心设计的有效性:temporal token association 能显著增强跨帧关联能力,合适的视频片段长度和采样范围有助于学习更稳定的目标轨迹信息,而 shared tokenizer、门控融合机制以及 one-shot multi-task training 共同保证了模型的通用性与性能。因为这样更省算力,也更接近“先看历史,再看现在,再结合记忆”的过程。有了这个 t

当前的红外与可见光目标检测(IVOD)方法仍存在三个缺陷。它们往往忽视了红外和可见光图像中目标特征的频率特性。红外成像主要捕捉低频热辐射,而可见光成像则强调高频细节。主流架构常常忽略这种固有属性,将跨模态信息嵌入到一个统一的特征空间中,这导致无法提取特定模态的特征。由于感受野固定,这些方法只能提取局部信息,难以适应红外和可见光图像中固有的位置偏差。此外,采用小核的模型不足以有效捕捉长距离信息,而这

互补的RGB与红外图像融合可提升目标检测的准确性、鲁棒性及可靠性。然而,模态间的差异性给红外与RGB特征的有效提取与融合带来了显著挑战。现有方法存在明显局限:由于依赖特定模态的骨干网络架构,导致模型只能在时间与空间对齐的红外(IR)和彩色(RGB)图像对上进行训练,这极大限制了模型可用的训练数据量。为解决这一问题并充分利用独立的红外和RGB数据集,我们提出了一种两阶段多光谱目标检测训练策略。第一阶








