收藏这篇就够了!ICLR 2025多模态大模型核心突破:因果推理驱动的编码器偏差消除,一篇讲透!
本篇文章提出CausalMM,是一个结合后门调整和反事实推理的框架,用于减轻多模态大语言模型 (MLLM) 中的幻觉。有趣的地方是将模态先验视为注意力机制和模型输出之间的混杂因素。
00 — 阅读笔记
本篇文章提出CausalMM,是一个结合后门调整和反事实推理的框架,用于减轻多模态大语言模型 (MLLM) 中的幻觉。有趣的地方是将模态先验视为注意力机制和模型输出之间的混杂因素。
01 — Introduction
多模态大型语言模型 (MLLM) 已成为工业界和学术界的中心焦点,但经常受到视觉和语言先验引入的偏见的影响,这可能导致多模态幻觉。这些偏差源于视觉编码器和大型语言模型(LLM)主干,影响了负责对齐多模态输入的注意力机制。现有的基于解码的缓解方法侧重于统计相关性,而忽视了注意力机制和模型输出之间的因果关系,限制了它们在解决这些偏差方面的有效性。为了解决这个问题,我们提出了一个称为 CAUSALMM 的因果推理框架,该框架将结构因果建模应用于 MLLM,将模态先验视为注意力机制和输出之间的混杂因素。具体来说,通过在视觉和语言注意力水平上采用后门调整和反事实推理,我们的方法减轻了模态先验的负面影响,增强了 MLLM 输入和输出的一致性,与传统方法相比,在 6 个 VLind-Bench 指标上最高得分提高了 65.3%,在 MME Benchmark 上最高得分提高了 164 分。广泛的实验验证了我们方法的有效性,同时是一种即插即用的解决方案。我们的代码可在以下网址获得:https://github.com/The-Martyr/CausalMM。
02 — Motivation
图 1:传统幻觉缓解范式(例如 VCD)与我们提出的 CMM 的比较。
视觉编码器的参数知识(即视觉先验)通过影响视觉编码器的注意力来影响多模态信息的对齐(Tong et al., 2024a;同样,LLM 参数中嵌入的知识(称为语言先验)可能会损害模型通过注意力对多模态输入的保真度(Lee 等人,2024 年)。这些偏见源于视觉编码器和 MLLM 对语言先验的过度依赖,可能会导致多模态幻觉等问题,最终降低模型性能(Yang 等人,2023 年)。已经提出了几种方法来增强模型输出而不修改模型权重(Leng et al., 2024;黄等人,2024 年;Zou 等人,2024a)。然而,如图 1(a)所示,现有的解码策略主要依靠统计相关性和后验分析的预定结论来优化输出,而没有系统地研究视觉注意力、语言注意力、模态先验和模型输出之间的因果关系。在这种情况下,注意力机制仅根据参数知识来调整权重,这限制了模型在推理过程中理解潜在依赖关系的能力,加剧了偏差,导致多模态幻觉等问题。
03 — Contribution
-
我们构建了一个结构性因果框架,称为 CAUSALMM,探索框架内的视觉和语言先验问题。
-
我们在视觉和语言注意力层面应用反事实推理,使输出与多模态输入更加一致。
-
通过全面的实验,我们证明了我们的方法在缓解 MLLM 幻觉方面的卓越性能。此外,我们的框架是即插即用的,可以与其他免训练方法集成以进一步改进。
04 — Method
图 2:反事实推理的因果图。❶ 在纯视觉反事实推理中,我们只有干预视觉注意力(即视觉编码器的注意力)。❷ 在纯语言反事实推理中,我们只干预 LLM 的多头自注意力。❸ 在多模态协同反事实推理中,我们同时干预视觉和语言注意力,并得到它们协同因果效应的总和。
- 结构因果模型
我们构建了一个结构因果模型(SCM)来描述 MLLM 各个组成部分之间的关系(Yang 等人,2021 年;Pawlowski 等人,2020 年)。特别是,我们的 SCM 通过对输入图像 (I)、视觉注意力 (A)、视觉标记嵌入 (T)、语言标记嵌入 (T)、语言先验 (P)、视觉先验 (P)、MLLM 注意力 (A) 和模型输出 (O) 之间的因果依赖关系进行建模来捕获视觉和语言模态之间的交互。视觉先验 (P) 和语言先验 (P) 都充当混杂因素,影响注意力层并将表征嵌入到两种模式中。这些先验混合到模型中,可能导致有偏差的输出。我们的目标是量化视觉注意力 (A) 和语言注意力 (A) 对模型输出 (O) 的因果效应,同时通过干预和反事实推理来解释这些混杂效应。
2.基于主导模态的多模态学习 DMML
我们对视觉和语言组件的注意力层进行特定干预,以研究它们对模型输出的因果影响。这些干预措施修改注意力权重以产生反事实输出,使我们能够隔离每种模式的影响。对于视觉注意力,我们通过将原始注意力图 A 替换为反事实状态 A(表示为 do(A= A)来进行干预。反事实状态 Acan 有多种形式,例如随机注意力权重、均匀分布、反向分数或洗牌注意力图(Rao et al., 2021)。每种配置都揭示了视觉注意力如何影响输出的不同方面,与图像 I 和视觉处理 P 等其他因素无关。
同样,我们通过应用 do(A= A) 来干预语言注意力,其中 A 表示替代注意力状态,使我们能够探索语言注意力模块对最终输出的影响,不受 T、T 和 P 的影响。
反事实注意力状态指定如下:
随机注意力:将原始注意力分数替换为从均匀分布中提取的随机值。对于视觉编码器,空间位置 (h, w) 处的注意力分数 A(h, w) 替换如下:
式中,U(0, 1) 是从均匀分布中提取的随机变量,σ 表示注意力的缩放因子,α表示归一化参数。类似地,对于语言模型,标记 n 上的随机注意力值 A(n) 由下式给出:
其中 β 是语言注意力缩放因子,α 是语言归一化。
统一注意力:为所有注意力分数分配一个常量值。对于视觉编码器,位置 (h, w) 的注意力被平均值替换:
其中 H 和 W 表示注意力图的高度和宽度,ε 是为避免精确均匀性而添加的小扰动。对于语言模型,对 N 个标记的注意力分布为:
其中 δ 是一个小常数,确保数值稳定性。
反转注意力:通过从图的最大值中减去每个注意力分数来反转注意力图。对于视觉编码器:
其中 λ 是控制反演的偏移参数。对于语言模型:
其中 ζ 是语言注意力的反转因子。
随机排列注意力:在视觉编码器的空间位置随机排列注意力分数。新的注意力图 A 是通过对原始分数 A 进行排列而创建的:
其中 π(h) 和 π(w) 是高度和宽度索引的随机排列。这种干预特定于视觉编码器,不适用于语言模型,因为标记顺序在语言处理中很重要。
通过进行这些干预,我们可以观察视觉和语言注意力对模型输出的独立贡献,控制混杂因素,例如图像 I、标记 T 和模型的中间表示 Pand P。
3.反事实推理
为了正式确定反事实干预对模型输出的影响,我们基于后门调整原理进行反事实推理(Pearl,2009 年;李等人,2023a;Adib 等人,2020 年;Zhang 等人,2023b)。后门标准确保我们在估计注意力机制的因果效应时正确考虑混杂因素(I、P、P)。在后门调整的框架下,我们能够有效地获得模态先验混杂因素影响下其他变量的因果效应。具体证据可以在 A.1 节中找到。为了衡量注意力机制的因果效应,我们使用反事实推理来模拟注意力失败的情况。
05 — Experiment
图3:VLind-Bench 基准测试
如图 3 所示,VLind-Bench 基准测试(Lee et al., 2024)上的实验结果特别有趣。在 LLaVA1.5 模型上,其他方法在平衡模态先验方面未能实现显著的性能提升,而多模态协同设置下的性能却有了显著的飞跃,表明 LLaVA1.5 的视觉先验和语言先验是平衡的。Qwen2-VL 模型的视觉先验得到了改进,使得语言设置和多模态协同设置都达到了相似的最优性能。
这一观察结果可归因于 VLind-Bench 的性质,它包含一套评估框架,旨在阐明各种因素的影响并量化对语言先验的依赖。这种评估范式对模型多模态先验知识的平衡提出了严格的要求。我们的多模态协作方法显着增强了基线模型在所有指标上的性能,有效地实现了模型模态先验的平衡。与其他遵循人类先验的方法相比,CMM 方法对注意力因果效应的自动捕获使其能够同时平衡不同模态的偏差。这一结果有力地证实了我们方法的有效性(Liu 等人,2024c)。
表 1:POPE 任务的主要结果。在不同的解码设置下,我们使用 LLaVa-1.5 评估了 MSCOCO、A-OKVQA 和 GQA 数据集上各种 MLLM 的 POPE 任务精度。常规是指应用直接采样的场景。视觉、语言和多模态是指 CMM 的纯视觉、纯语言和多模态协作变体。粗体和下划线分别指每个设置下的最高和第二高指标。每个值后跟相对于常规设置的差异。
POPE 上的结果。在 POPE 基准上进行的实验分析(见表 1),如先前研究所述(Li 等人,2023c;Lin 等人,2014 年;Schwenk 等人,2022 年;Hudson & Manning,2019 年),表明我们提出的 CMM 在减轻随机、流行和对抗性环境中的物体级幻觉方面表现出卓越的性能。CMM 在大多数评估指标上始终优于现有基线,表明性能得到了强劲的提高,平均指标改进了 5.37%。
值得注意的是,CMM 的纯视觉和纯语言变体在有效性方面都表现出显着提高。此外,我们模型中的多模态协作方法实现了最高的准确性,强调了整合多种模态的协同效益。尽管在流行和对抗性设置下观察到各种基线的性能下降,但我们的模型保持了显着的稳定性。这一观察结果表明,我们的 CMM 方法有助于提高稳定性。此外,多模态参数先验的平衡被认为是至关重要的,因为它可以在一定程度上放大不同模态的平衡先验所赋予的优势。这种平衡对于有效减少多模式幻觉至关重要。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。
针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!
配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等
博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路
一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)