logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【TCSVT 2025】边缘-高斯多模态融合LEGNet,轻量遥感目标检测架构,即插即用!

本文介绍了一种名为LEGNet(Lightweight Edge-Gaussian Driven Network)的轻量级骨干网络,专门用于低质量遥感图像中的目标检测任务。遥感目标检测(RSOD)常常受到低空间分辨率、传感器噪声、运动模糊和光照不良等因素的干扰,导致特征区分度降低,目标表示模糊,前景与背景难以分离。现有的RSOD方法在低质量目标的鲁棒检测方面存在局限性。

文章图片
#目标检测#人工智能#计算机视觉 +2
Arxiv 2025 | 16G显存也能跑高分多模态!DFENet登顶SOTA,傅里叶变换让AI视觉更轻更快

本文提出了一种创新的深度傅里叶嵌入网络DFENet,用于RGB与热红外显著性目标检测。该网络首次采用纯傅里叶变换架构,设计了模态协同感知注意力、频率分解边缘感知块和傅里叶残差通道注意力块三个核心模块,并创新性地提出共聚焦频率损失函数。DFENet在标准GPU上即可高效处理高分辨率双模态输入,在四个主流基准数据集上超越15个现有模型,为多模态密集预测任务提供了高效精准的新范式。

文章图片
#人工智能#计算机视觉#目标跟踪
CVPR 即插即用 | PConv:重新定义高效卷积,一个让模型“跑”得更快、更省的新范式

本文提出了一种新型卷积算子PConv和高速网络FasterNet。核心创新在于:1)突破传统单纯优化FLOPs的思路,提出提升每秒浮点运算次数(FLOPS)才是加速关键;2)设计部分卷积(PConv),仅处理1/4输入通道,大幅减少计算量和内存访问;3)构建简洁的FasterNet架构,在多个硬件平台实现顶尖推理速度。PConv通过利用通道冗余性,结合后续PWConv形成T形计算模式,比DWCon

文章图片
#transformer#深度学习#人工智能 +1
【无标题】

华南理工大学团队提出轻量级半监督多模态情感分析模型Semi-IIN,仅需1.6M参数即实现SOTA性能。该模型创新性地采用双分支掩码注意力机制(IntraMA和InterMA)阻断模态间噪声干扰,并通过动态门控自适应融合模态内/间特征。结合Top-k置信度过滤的半监督自训练策略,有效利用无标签数据提升性能。实验显示,在MOSI/MOSEI数据集上不仅训练速度提升40倍,关键指标也全面超越现有方法,

文章图片
#人工智能#深度学习#神经网络 +2
多模态 即插即用 | 人人都能靠它水一篇,此时不冲,更待何时!

本文提出轻量化多模态即插即用模块方案,通过冻结基础模型参数并引入外部适配器,实现低算力成本下的跨模态特征对齐与能力注入。同时介绍CoTMR框架(零样本组合图像检索)、MegaPairs方法(多模态检索数据合成)和Retrv-R1框架(高效多模态检索)三项创新研究,分别采用多尺度推理、异构KNN三元组数据合成和推理驱动架构,有效解决了传统方法中的信息丢失、数据稀缺和计算效率问题,为多模态任务提供了高

文章图片
#transformer#深度学习#人工智能 +1
【TCSVT 2025】边缘-高斯多模态融合LEGNet,轻量遥感目标检测架构,即插即用!

本文介绍了一种名为LEGNet(Lightweight Edge-Gaussian Driven Network)的轻量级骨干网络,专门用于低质量遥感图像中的目标检测任务。遥感目标检测(RSOD)常常受到低空间分辨率、传感器噪声、运动模糊和光照不良等因素的干扰,导致特征区分度降低,目标表示模糊,前景与背景难以分离。现有的RSOD方法在低质量目标的鲁棒检测方面存在局限性。

文章图片
#目标检测#人工智能#计算机视觉 +2
SCI一区 即插即用 | 清华开源FCB模块,用CNN架构实现全局感受野!

本文提出一种新型傅里叶卷积块(FCB)用于MRI重建,通过频域操作实现全局感受野,有效解决传统CNN感受野受限问题。创新点包括:1)将FCB与深度可分离卷积结合降低计算成本;2)采用两阶段训练策略,先学习局部特征再重参数化为频域核进行微调。实验表明,该模块可嵌入多种网络架构,在8-12倍高加速率下显著提升重建质量,PSNR和SSIM指标优于传统方法。FCB作为高效全局视野插件,能有效消除MRI欠采

文章图片
#cnn#人工智能#神经网络
ICML 2025 | 快手&南开提出模块化双工注意力,即插即用,涨点起飞!

快手可灵团队与南开大学合作提出多模态情感理解模型"摩达(MODA)",通过创新模块化双工注意力机制解决跨模态注意力缺陷问题。该模型采用"先对齐后修正"策略,包含双工注意力对齐和模块化掩码注意力两大核心模块,在视觉-语言模态交互中实现精细化调控。实验表明,MODA在21个基准测试的感知、认知与情感任务中表现优异,尤其在角色剖析与情感识别场景显著优于同类模型,相

文章图片
#人工智能#机器学习#深度学习 +2
CVPR 即插即用 | AIGC新思路?用“知识互补”生成神级伪标签,彻底告别医学影像标注焦虑!

本文提出SKCDF框架,创新性地解决半监督医学图像分割中的伪标签噪声和类别不平衡问题。核心贡献包括:1)解耦数据流设计,分离有/无标签数据训练路径,保护解码器免受低质量伪标签影响;2)语义知识互补模块,通过跨流注意力实现特征相互增强;3)辅助平衡分割头策略,基于伯努利分布重点学习小器官特征。实验表明,该方法在Synapse数据集上Dice系数平均提升19.61%,显著提升小目标分割性能。该框架可推

文章图片
#AIGC#transformer#深度学习 +2
AAAI 即插即用 | 告别标准卷积!这个“风车”算子PConv,让你的YOLO模型在红外“鬼影”中精准索敌

本文提出了一种红外小目标检测的创新方法,通过风车形卷积(PConv)和基于尺度的动态损失(SDLoss)提升检测性能。PConv采用非对称卷积核模拟目标高斯分布特性,在少量参数增加下显著扩大感受野;SDLoss根据目标尺度动态调整位置与尺度损失的权重,有效缓解标签噪声影响。实验验证了方法在多个模型和数据集上的有效性,并构建了新的SIRST-UAVB基准数据集。该研究为红外小目标检测提供了高效且通用

文章图片
#transformer#架构#深度学习 +1
    共 16 条
  • 1
  • 2
  • 请选择