2501_93807737 个人主页

@2501_93807737

2501_93807737

2026-04-14 21:41:38 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

PR 2024 | ITFuse：一种用于红外与可见光图像融合的交互式_Transformer

近年来，一些基于Transformer的融合模型被提出用于全局特征提取。然而，这些方法要么是特征级融合模型，要么是图像级融合模型。这些基于Transformer的融合模型均未考虑信息交互，导致对互补信息的挖掘不足。在本文中，我们提出一种新颖的用于红外与可见光图像融合（IVIF）的端到端无监督交互式Transformer，称为ITFuse。它由**特征交互模块（FIMs）和特征重建模块（FRM）**

#transformer #深度学习 #人工智能

TPAMI 2025 | 基于在线密集时序 Token 学习的通用模态跟踪研究

消融实验则验证了各个核心设计的有效性：temporal token association 能显著增强跨帧关联能力，合适的视频片段长度和采样范围有助于学习更稳定的目标轨迹信息，而 shared tokenizer、门控融合机制以及 one-shot multi-task training 共同保证了模型的通用性与性能。因为这样更省算力，也更接近“先看历史，再看现在，再结合记忆”的过程。有了这个 t

#学习

AAAI 2025 | FD2-Net：面向红外_-_可见光目标检测的频率驱动特征分解网络[1]

当前的红外与可见光目标检测（IVOD）方法仍存在三个缺陷。它们往往忽视了红外和可见光图像中目标特征的频率特性。红外成像主要捕捉低频热辐射，而可见光成像则强调高频细节。主流架构常常忽略这种固有属性，将跨模态信息嵌入到一个统一的特征空间中，这导致无法提取特定模态的特征。由于感受野固定，这些方法只能提取局部信息，难以适应红外和可见光图像中固有的位置偏差。此外，采用小核的模型不足以有效捕捉长距离信息，而这

#论文阅读 #目标检测 #网络

CVPR 2024 | GM-DETR：基于高效融合编码器的广义多光谱检测 Transformer，适用于可见光 - 红外检测

互补的RGB与红外图像融合可提升目标检测的准确性、鲁棒性及可靠性。然而，模态间的差异性给红外与RGB特征的有效提取与融合带来了显著挑战。现有方法存在明显局限：由于依赖特定模态的骨干网络架构，导致模型只能在时间与空间对齐的红外（IR）和彩色（RGB）图像对上进行训练，这极大限制了模型可用的训练数据量。为解决这一问题并充分利用独立的红外和RGB数据集，我们提出了一种两阶段多光谱目标检测训练策略。第一阶

#论文阅读 #transformer #深度学习

到底了