CVPR 2024计算机视觉技术前沿概览
在人工智能的各个领域,生成模型和基础模型——如视觉语言模型——已成为热门话题。
CVPR 2024技术论文概览
在人工智能的各个领域,生成模型和基础模型——如视觉语言模型——已成为热门话题。
研究重点转变
过去几年,基础模型和生成式AI模型——特别是大语言模型——已成为AI研究的主要课题。这一趋势在计算机视觉领域同样明显,研究重点日益集中在将大语言模型与图像编码器结合的视觉语言模型上。
这种转变体现在今年计算机视觉与模式识别会议(CVPR 2024)接受的论文主题中。多数论文涉及视觉语言模型,而其他一些论文则关注相关主题,如视觉问答、幻觉缓解和检索增强生成。然而,传统计算机视觉主题如三维重建、目标跟踪和姿态估计仍然得到充分体现。
三维重建
通过双布局估计消除360°房间布局的模糊性
作者:Yu-Ju Tsai, Jin-Cheng Jhang, Jingjing Zheng, Wei Wang, Albert Chen, Min Sun, Cheng-Hao Kuo, Ming-Hsuan Yang
ViewFusion:通过插值去噪实现多视图一致性
作者:Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
标准扩散模型生成的对象视图通常很逼真,但相邻视图可能缺乏对齐(左图)。ViewFusion采用自回归过程,促进跨视图的一致性(右图)。
算法信息论
通过复杂度约束描述性自编码实现可解释的概念相似性度量
作者:Alessandro Achille, Greg Ver Steeg, Tian Yu Liu, Matthew Trager, Carson Klingenberg, Stefano Soatto
地理空间分析
通过多传感器地理空间基础模型连接遥感器
作者:Boran Han, Shuai Zhang, Xingjian Shi, Markus Reichstein
幻觉缓解
通过视觉信息 grounding 实现多模态幻觉控制
作者:Alessandro Favero, Luca Zancato, Matthew Trager, Siddharth Choudhary, Pramuditha Perera, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto
THRONE:面向大型视觉语言模型自由生成的对象基础幻觉基准
作者:Prannay Kaul, Zhizhong Li, Hao Yang, Yonatan Dukler, Ashwin Swaminathan, C. J. Taylor, Stefano Soatto
度量学习
开放世界识别中的转导阈值校准学习
作者:Qin Zhang, Dongsheng An, Tianjun Xiao, Tong He, Qingming Tang, Ying Nian Wu, Joe Tighe, Yifan Xing, Stefano Soatto
模型鲁棒性
GDA:用于鲁棒测试时适应的广义扩散
作者:Yun Yun Tsai, Fu-Chen Chen, Albert Chen, Junfeng Yang, Che-Chun Su, Min Sun, Cheng-Hao Kuo
以对象为中心的学习
自适应槽注意力:动态槽数的对象发现
作者:Ke Fan, Zechen Bai, Tianjun Xiao, Tong He, Max Horn, Yanwei Fu, Francesco Locatello, Zheng Zhang
目标跟踪
具有路径一致性的自监督多目标跟踪
作者:Zijia Lu, Bing Shuai, Yanbei Chen, Zhenlin Xu, Davide Modolo
姿态估计
MRC-Net:基于多尺度残差相关的6自由度姿态估计
作者:Yuelong Li, Yafei Mao, Raja Bala, Sunil Hadap
图像对中,左图是相机图像,右图在原始图像上叠加了带有估计六自由度姿态的彩色3D对象模型。
负责任AI
FairRAG:通过公平检索增强实现公平人类生成
作者:Robik Shrestha, Yang Zou, James Chen, Zhiheng Li, Yusheng Xie, Tiffany Deng
检索增强生成
CPR:用于版权保护的检索增强生成
作者:Aditya Golatkar, Alessandro Achille, Luca Zancato, Yu-Xiang Wang, Ashwin Swaminathan, Stefano Soatto
安全
针对多样化计算平台真实对抗攻击的锐度感知优化与增强可转移性
作者:Muchao Ye, Xiang Xu, Qin Zhang, Jon Wu
视频语言模型
VidLA:大规模视频语言对齐
作者:Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi
视觉语言模型
接受模态差距:双曲空间中的探索
作者:Sameera Ramasinghe, Violetta Shevchenko, Gil Avraham, Ajanthan Thalaiyasingam
"接受模态差距:双曲空间中的探索"提出了一种新的基于角度的对比损失,允许将图像放置在从文本嵌入发出的轴上的任何位置,从而在图像之间建立层次结构。
通过丰富监督增强视觉语言预训练
作者:Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
GROUNDHOG:将大语言模型 grounding 到整体分割
作者:Yichi Zhang, Martin Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi (QZ) Gao, Joyce Chai
使用合成标题进行双曲学习以实现开放世界检测
作者:Fanjie Kong, Yanbei Chen, Jiarui Cai, Davide Modolo
非自回归序列到序列视觉语言模型
作者:Kunyu Shi, Qi Dong, Luis Goncalves, Zhuowen Tu, Stefano Soatto
基于扩散的文本到图像生成的可扩展性
作者:Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano Soatto
UNet缩放对文本-图像对齐的影响。在"基于扩散的文本到图像生成的可扩展性"中,研究人员沿两个维度改变UNet:通道数(左)和变换器深度(右)。提示词为:
- “方形蓝苹果在带有圆形黄叶的树上”
- “五个磨砂玻璃瓶”
- “蓝色球体右侧的黄色盒子”
- “在国际空间站飞过月球前方”
视觉问答
GRAM:多页面VQA的全局推理
作者:Tsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Roy Ganz, Elad Ben Avraham, Aviad Aberdam, Shahar Tsiper, Ron Litman
用于多模态推理的问题感知视觉变换器
作者:Roy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben Avraham, Oren Nuriel, Shai Mazor, Ron Litman
逐步合成:工具、模板和LLM作为基于推理的图表VQA的数据生成器
作者:Zhuowan Li, Bhavan Jasani, Peng Tang, Shabnam Ghadar
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码
更多推荐
所有评论(0)