
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出了一种名为 WaveFormer 的全新视觉骨干网络,旨在解决现有 Transformer 计算复杂度高以及基于“热传导”物理模型容易导致特征过度平滑的问题。核心思想是将特征图视为一种空间信号,利用**欠阻尼波动方程(Underdamped Wave Equation)来建模其随网络深度的演化过程。通过推导该方程在频域的闭式解,作者设计了 波传播算子(WPO),实现了频率与时间的解耦,使得

本文提出了一种名为 Mesorch 的新型架构,用于图像篡改定位任务。该模型创新性地引入"介观"概念,通过并行结合 CNN(捕捉微观纹理)和 Transformer(提取宏观语义),并辅以频域双流增强与自适应加权模块,实现了多尺度特征的高效融合。实验表明,Mesorch 在多个基准数据集上达到 SOTA 性能,同时通过二次剪枝策略大幅降低计算成本(FLOPs 减少约50%)。该

本文提出了一种名为Mona的新型参数高效调优方法,首次在复杂视觉任务上超越全量微调性能。针对现有Adapter方法源于NLP领域、依赖线性层的局限,Mona创新性地引入"多认知视觉滤波器"(并行3×3/5×5/7×7深度卷积)替代线性层,并加入可学习缩放LayerNorm来调整特征分布。该方法仅需5%可训练参数,在COCO、ADE20K等任务上性能突破全量微调天花板。论文详细分

提出了一种新颖的“代理注意力”范式。它引入一小组“代理令牌”(Agent Tokens)来负责聚合和广播全局信息,旨在平衡Transformer中Softmax注意力的强大表达能力和线性注意力的计算效率。

【AI即插即用CV涨点模块开源】 本文介绍了一个专为CV任务设计的即插即用模块开源仓库(GitHub链接),提供SOTA模型创新模块、论文精读及实现代码。重点解析了AAAI 2025论文《PConv-SDLoss》的创新: PConv风车形卷积:通过不对称填充和十字卷积核(1×3和3×1)模拟红外小目标的高斯分布特性,参数量减少22%的同时扩大177%感受野; SD Loss动态损失:根据目标尺寸

本文提出了一种轻量级主干网络LWGANet,针对遥感图像处理中的空间冗余和通道冗余问题进行了优化。通过设计轻量级分组注意力模块(LWGA)将特征解耦为不同尺度的子空间,并结合Top-K全局特征交互模块(TGFI)实现稀疏计算,显著降低了计算成本。实验表明,LWGANet在场景分类、目标检测等四大任务的12个数据集上均优于现有轻量级模型,同时保持极低的参数量(1.72M)。该方法的核心创新在于异构分

🔥 AI 即插即用 | CV涨点模块"军火库"开源!🔥 本文介绍了一个开源GitHub仓库,汇集了CV领域的即插即用模块、论文解读和SOTA模型创新模块。重点解析了CVPR2025的PFT-SR方法,该文提出渐进式聚焦Transformer,通过跨层传递注意力图实现计算预过滤,显著降低Transformer的计算冗余。核心创新包括:1)渐进式聚焦注意力(PFA)机制;2)稀

本文提出了一种双重聚合Transformer(DAT)用于图像超分辨率重建。DAT通过块间和块内的双重方式在空间和通道维度上聚合特征:块间采用交替堆叠的空间-通道Transformer块实现信息互补,块内则通过自适应交互模块(AIM)和空间门控前馈网络(SGFN)实现特征融合。AIM通过双向交互操作(空间交互S-I和通道交互C-I)将全局自注意力与局部卷积特征深度融合;SGFN则利用空间门控机制增

本文提出了一种基于深度信息辅助的双任务协同网络(DICMP)用于单幅图像去雾。该方法通过构建去雾与深度估计的闭环系统,利用双任务交互模块(DTI)实现特征级信息共享,并提出差异感知机制,通过深度估计误差反馈指导去雾网络重点关注困难区域。实验表明,该方法在SOTS和NYU Depth v2数据集上取得了SOTA性能,同时提升了深度估计精度。该框架的核心创新在于利用任务间的物理关联性构建反馈机制,为多

本文提出了一种高效的神经网络架构PartialNet,通过创新的部分通道机制(PCM)将特征通道分组处理,一部分采用卷积提取局部特征,另一部分并行应用视觉注意力捕获全局信息。该方法设计了三种混合模块(PAT_ch、PAT_sp、PAT_sf)和可学习的动态部分卷积(DPConv),在保持低计算量的同时增强特征交互。实验表明,PartialNet在ImageNet等任务上实现了更优的速度-精度平衡,








