论文标题

Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection

论文来源

ACM MM 2023

论文链接

https://arxiv.org/abs/2308.08930

代码链接

https://gitee.com/big_feather/acm-mm-2023-picr

昇思MindSpore作为开源的AI框架,为产学研和开发人员带来端边云全场景协同、极简开发、极致性能、安全可信的体验,支持超大规模AI预训练,自2020年3月28日开源来已超过6百万的下载量。昇思MindSpore已支持数百篇AI顶会论文,走入Top100+高校教学,通过HMS在5000+App上商用,拥有数量众多的开发者,在AI计算中心、智能制造、金融、云、无线、数通、能源、消费者1+8+N、智能汽车等端边云车全场景广泛应用,是Gitee指数最高的开源软件。欢迎大家参与开源贡献、套件、模型众智、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。

在科技界、学术界和工业界对昇思MindSpore的广泛支持下,基于昇思MindSpore的AI论文2023年在所有AI框架中占比7%,连续两年进入全球第二,感谢CAAI和各位高校老师支持,我们一起继续努力做好AI科研创新。昇思MindSpore社区支持顶级会议论文研究,持续构建原创AI成果。我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟昇思MindSpore合作,一起推动原创AI研究,昇思MindSpore社区会持续支撑好AI创新和AI应用,本文是MindSpore AI顶会论文系列第21篇,我选择了来自山东大学控制科学与工程学院的丛润民老师团队的一篇论文解读,感谢各位专家教授同学的投稿。

昇思MindSpore旨在实现易开发、高效执行、全场景覆盖三大目标。通过使用体验,昇思MindSpore这一深度学习框架的发展速度飞快,它的各类API的设计都在朝着更合理、更完整、更强大的方向不断优化。此外,昇思不断涌现的各类开发工具也在辅助这一生态圈营造更加便捷强大的开发手段,例如MindSpore Insight,它可以将模型架构以图的形式呈现出来,也可以动态监控模型运行时各个指标和参数的变化,使开发过程更加方便。

01

研究背景

受人类的视觉注意力机制启发,显著性目标检测任务旨在定位给定场景中最吸引人注意的目标或区域。近年来,随着深度相机的发展和普及,深度图像已经被成功应用于各类计算机视觉任务,这也为显著性目标检测技术提供了新思路,即RGB-D显著性目标检测任务。通过引入深度图像不仅能使计算机更加全面地模拟人类视觉系统,而且深度图像所提供的结构、位置等补充信息也可以为低对比度、复杂背景等困难场景的检测提供新的解决方案。

02

团队介绍

丛润民,山东大学齐鲁青年学者特聘教授、博士生导师,入选全球前2%顶尖科学家(连续三年)、中国科协“青年人才托举工程”、人社部“香江学者”计划、山东省“泰山学者”青年专家等。担任中国图象图形学学会青年工作委员会常务副秘书长、中国图象图形学学会优博俱乐部副主席。主要研究方向包括计算机视觉、人工智能、多媒体信息处理、视觉显著性计算、水下环境感知等。主持、参与了包括国家自然科学基金、国家重点研发计划、北京市科技新星计划在内的多项科研项目。在IEEE TIP、NeurIPS、CVPR、ICCV等CCF-A、IEEE/ACM Trans上发表论文66篇,ESI热点论文2篇、ESI高被引论文11篇;授权国家发明专利22项。担任多个SCI二区期刊编委,荣获IEEE ICME 最佳学生论文奖亚军、天津市科学技术进步一等奖、ACM SIGWEB中国新星奖、中国图象图形学学会优秀博士学位论文奖、《信号处理》2020-2022年度优秀论文奖(2/231)、第十五届北京青年优秀科技论文奖等。

刘鸿羽,北京交通大学二年级硕士研究生,主要研究兴趣为RGB-D、高分辨率显著性目标检测,曾获国家奖学金。

张晨,北京交通大学硕士,以一作/学生一作/通信作者发表CCF A/IEEE Trans论文5篇,谷歌引用150余次,以学生第一发明人申请国家发明专利1项,荣获北京图象图形学学会优秀硕士论文奖、北京交通大学优秀硕士学位论文奖、首届中国图象图形学报研究生论坛优秀报告二等奖、2020-2022年度《信号处理》期刊优秀论文。

张伟,山东大学教授、博士生导师,长江学者特聘教授。主要从事视觉感知、机器学习、机器人等领域的研究,主持国家自然基金重大项目课题、联合基金项目、国家重点研发计划课题等10余项。在IEEE TPAMI、TNNLS、TIP、TCYB、CVPR、ICCV、IJCAI、AAAI等权威期刊和会议上发表论文80余篇,获美国、中国等发明专利授权10余项。

郑锋,国家自然优秀青年基金获得者,南方科技大学副教授(研究员)。研究兴趣包括机器学习、计算机视觉与跨媒体计算。目前在国际顶级杂志和会议上包括IEEE TPAMI/TIP/TNNLS, AAAI, NeuIPS, CVPR, ICCV发表85篇学术论文, 其中,高被引论文2篇;CCF推荐A类论文45篇。

宋然,山东大学控制科学与工程学院教授,博士生导师,国家青年拔尖人才,3次获最佳论文等国际学术会议奖励。主持国家自然科学基金联合基金重点项目、面上项目等。

邝得互,岭南大学协理副校长(策略型研究)及计算智能学讲座教授,进化演算法、人工智慧解决方案和图形/视频编码领域的顶尖学者,在国际权威期刊上发表学术论文350多篇,重要学术会议160多篇,谷歌学者h指数高达76。

03

论文简介

image.png

图1:不同架构的代表性网络的视觉比较,其中MVSalNet、VST和TriTransNet分别是纯CNN、纯Transformer和Transformer辅助CNN架构

从模型架构的角度来看,现有的RGB-D SOD方法可以分为三类:纯 CNN 模型、纯 Transformer 模型和 Transformer 辅助 CNN 模型。对于纯 CNN 架构,由于卷积操作具有良好的局部感知能力,显着性结果在描述一些局部细节(例如边界)方面表现更好,但可能是不完整的,例如图 1 的第一个图像中的 MVSalNet的结果。对于纯 Transformer 结构,由于 Transformer 可以捕获长程依赖关系,因此检测结果的完整性在一定程度上得到了提高,但补丁划分操作可能会破坏细节的质量、导致块效应,甚至引入额外的错误检测,例如图 1 中的 VST的结果。Transformer 辅助的 CNN 结构引入了 Transformer 来辅助 CNN 进行全局上下文建模,这可以通过组合两者来缓解上述单一方案的缺点。然而,在逐层解码过程中,卷积操作会逐渐稀释 Transformer 获得的全局信息,因此该方案仍然会导致漏检或误检,例如图 1 中的 TriTransNet的结果。

image.png

图2:本文提出的PICR-Net的总体框架

因此,在本文中,我们重新思考 Transformer 和 CNN 之间的关系,并提出了名为PICR-Net的网络架构,具体如图2所示。具体来说,我们利用 Transformer 来完成大部分编码和解码过程,并设计了一个可插入的 CNN 引导修正单元(CNNR)来实现网络末端的内容细化。通过这种方式,Transformer 和 CNN 可以完全利用而不会相互干扰,从而获得全局和局部感知能力并生成准确和高质量的显著图。

image.png

图3:本文提出点感知跨模态交互形式

在提取RGB模态和深度模态的多级编码特征后,如何实现综合交互是一个重要的问题,需要在编码阶段关注。Transformer 架构下现有的跨模态交互方案通常对两种模态所有位置之间的关系进行建模。但是众所周知,RGB图像和深度图本身之间存在相应的关系,即两种模态仅在对应位置具有清晰的关系。因此,如果对不同模态的所有像素之间的关系进行建模,并且由于这种强制关联建模,也可能引入不必要的噪声。考虑到这些,从RGB-D SOD任务中跨模态建模的现实来看,如图3所示,我们引入了位置约束因子,并提出了一种跨模态点感知交互方案,其核心是通过多头注意探索不同模态特征在同一位置的相互作用关系。

04

实验结果

为了验证本文提出的PICR-Net的有效性,我们在五个广泛使用的RGB-D SOD数据集上与 16 种SOTA方法进行比较。

image.png

表1:在五个数据集上三项评测指标的定量比较结果

表 1 直观地显示了所提出的 PICR-Net 在五个广泛使用的数据集上的定量结果,其中最佳性能以粗体标记。本文提出的方法在这五个数据集上优于所有比较方法,除了 LFSD 数据集上的 S 值。例如,与第二好的方法相比,DUT-test、LFSD、NLPR-test 和 STORE1000 数据集上的 MAE增益分别达到 16.7%、1.9%、9.5% 和 6.1%。在其他指标中可以观察到类似的收益。

image.png

图4: PICR-Net和SOTA方法在不同具有挑战性的场景下的视觉比较,如小目标(即a、c和d)、多目标(即c)、低对比度(即d和f)、低质量深度图(即b和e)和不均匀的照明(即g)

图 4 提供了不同方法的一些可视化结果可以看出,PICR-Net不仅准确地检测出这些具有挑战性的场景中的显著目标,而且获得了更好的完整性和局部细节。

05

总结与展望

考虑到 Transformer 和 CNN 各自的特征和优势,本文提出了一个名为 PICR-Net 的网络来实现 RGB-D SOD,其中网络作为一个整体遵循基于 Transformer 的编码器-解码器架构,最后添加一个可插拔的 CNNR 单元进行细节细化。此外,与传统的交叉注意力操作相比,本文提出的CmPI模块考虑了RGB模态和深度模态之间的先验相关性,通过引入空间约束和全局显著性引导,实现了更有效的跨模态交互。综合实验表明,本文的网络在五个基准数据集上实现了与 16 种最先进方法相当的性能。MindSpore可以很好实现跨平台开发、训练和部署,为开发者提供了便利,完善的设计文档和与其他框架的API映射关系表也大大降低了MindSpore学习成本。期待国产化的深度学习框架能够通过自己特性和便利,收获越来越多开发者的青睐。

Logo

昇腾万里,让智能无所不及

更多推荐