大型多模态智能体:一项调查

论文名称:Large Multimodal Agents: A Survey

论文地址:https://arxiv.org/pdf/2402.15116

Github:https://github.com/ jun0wanan/awesome-large-multimodal-agents

摘要

大型语言模型(LLMs)在推动基于文本的人工智能智能体方面取得了卓越表现,赋予它们类似于人类的决策和推理能力。与此同时,出现了一种新兴的研究趋势,专注于将这些由LLM驱动的人工智能智能体扩展到多模态领域。这种扩展使得人工智能智能体能够解释和回应各种多模态用户查询,从而处理更加复杂和微妙的任务。在本文中,我们对由LLM驱动的多模态智能体进行了系统性审查,我们将其称为大型多模态智能体(简称LMAs)。首先,我们介绍了开发LMAs所涉及的基本组件,并将当前的研究内容分类为四种不同类型。随后,我们审查了整合多个LMAs以增强集体效力的协作框架。该领域面临的一个关键挑战是现有研究中使用的多样化评估方法,阻碍了对不同LMAs进行有效比较。因此,我们整理了这些评估方法,并建立了一个全面的框架来弥合差距。该框架旨在标准化评估,促进更有意义的比较。在总结审查时,我们强调了LMAs的广泛应用,并提出了可能的未来研究方向。我们的讨论旨在为这个快速发展领域的未来研究提供有价值的见解和指导。最新的资源列表可在https://github.com/ jun0wanan/awesome-large-multimodal-agents 找到。

引言

智能体是一种能够感知其环境并基于这些感知做出决策以实现特定目标的系统[56]。尽管在狭窄领域表现出色,早期的智能体[35, 50]往往缺乏适应性和泛化能力,与人类智能存在显著差距。大型语言模型(LLMs)的最新进展已经开始弥合这一差距,LLMs增强了它们在命令解释、知识吸收[36, 78]以及模仿人类推理和学习方面的能力[21, 66]。这些智能体将LLMs作为其主要决策工具,并进一步增强了关键的类人特征,如记忆。这种增强使它们能够处理各种自然语言处理任务,并使用语言与环境进行交互[40, 38]。

然而,现实世界的场景通常涉及超出文本范围的信息,涵盖多种模态,特别强调视觉方面。因此,LLM驱动的智能体迈向的下一个进化步骤是获得处理和生成多模态信息的能力,特别是视觉数据。这种能力对于这些智能体进化为更强大的人工智能实体至关重要,达到类人级智能。具备这种能力的智能体在我们的论文中被称为大型多模态智能体(LMAs)。通常,它们面临比仅使用语言的智能体更复杂的挑战。以网络搜索为例,一个LMA首先需要输入用户需求以通过搜索栏查找相关信息。随后,它通过鼠标点击导航到网页,滚动浏览实时网页内容。最后,LMA需要处理多模态数据(例如文本、视频和图像)并进行多步推理,包括从网络文章、视频报道和社交媒体更新中提取关键信息,并整合这些信息以回应用户的查询。我们注意到,现有的LMAs研究是孤立进行的,因此有必要通过总结和比较现有框架进一步推进该领域。存在一些与LLM驱动的智能体相关的调查[60, 42, 49],但其中很少有关注多模态方面的。

图1:从2022年11月至2024年2月发表的顶级人工智能会议上关于LLM驱动的多模态智能体的代表性研究论文,按模型名称分类,较早发表的名称对应于较早列出的名称。

在本文中,我们旨在填补这一空白,总结LMAs的主要发展。首先,我们介绍了核心组件(§2)并提出了现有研究的新分类法(§3),并进一步讨论了现有的协作框架(§4)。关于评估,我们概述了评估LMAs性能的现有方法,随后进行全面总结(§5)。然后,应用部分提供了多模态智能体及其相关任务的广泛实际应用的详尽概述(§6)。我们通过讨论并提出LMAs可能的未来发展方向来结束这项工作,以提供有用的研究指导。

LMAs的核心组件

在本节中,我们详细介绍了LMAs的四个核心元素,包括感知、规划、行动和记忆。

感知。 感知是一种复杂的认知过程,使人类能够收集和解释环境信息。在LMAs中,感知组件主要集中在处理来自不同环境的多模态信息上。正如表1所示,不同任务中的LMAs涉及各种模态。它们需要从这些不同模态中提取对任务完成最有益的关键信息,从而促进任务的更有效规划和执行。

早期关于处理多模态信息的研究[57, 43, 70, 9]通常依赖于简单的相关模型或工具,将图像或音频转换为文本描述。然而,这种转换方法往往会生成大量无关和冗余信息,特别是对于复杂模态(例如视频)。除了输入长度限制,LLMs经常面临有效提取相关信息以进行规划的挑战。为解决这个问题,最近的研究[71, 47]引入了子任务工具的概念,旨在处理复杂的数据类型。在类似真实世界(即开放世界游戏)的环境中,[51]提出了一种处理非文本模态信息的新方法。该方法首先从环境中提取关键的视觉词汇,然后利用GPT模型进一步将这些词汇细化为一系列描述性句子。当LLMs感知环境中的视觉模态时,它们使用这些句子来检索最相关的描述性句子,从而有效增强对环境的理解。

表1:此表呈现了所有LMAs的组件细节,包括任务特定的模态、规划者概述的模型、规划中采用的方法和格式、涉及的各种行动、多智能体协作的程度以及长期记忆的整合。在此表中,“V”代表虚拟行动,“T”表示工具的使用,“E”代表物理行动。

规划。 规划者在LMAs中扮演着中心角色,类似于人类大脑的功能。它们负责对当前任务进行深入推理并制定相应的计划。与仅使用语言的智能体相比,LMAs在更复杂的环境中运作,制定合理计划更具挑战性。我们从四个角度详细介绍规划者(模型、格式、检查和反思以及规划方法):

  • 模型:如表1所示,现有研究采用不同的模型作为规划者。其中,最流行的是GPT-3.5或GPT-4 [43, 41, 9, 30, 57, 51]。然而,这些模型并不是公开可用的,因此一些研究已经开始转向使用开源模型,如LLaMA [67]和LLaVA [23],后者可以直接处理多种模态的信息,增强了它们制定更优化计划的能力。

  • 格式:它表示规划者制定的计划的格式。如表1所示,有两种格式方式。第一种是自然语言。例如,在[41]中,获得的规划内容是“我做的第一件事是使用OpenCV的openpose控制模型分析图像中男孩的姿势”,其中制定的计划是使用“OpenCV的openpose控制模型”。第二种是以程序形式,如[43]中描述的“image_patch = ImagePatch(image)”,调用ImagePatch函数执行规划。还有混合形式,如[9]。

  • 检查和反思:在复杂的多模态环境中,LMAs要始终制定有意义且能完成任务的计划是具有挑战性的。这一组件旨在增强鲁棒性和适应性。一些研究方法[51, 52]将成功经验存储在长期记忆中,包括多模态状态,以指导规划。


图2:四种LMAs的示意图:(a) 类型I:没有长期记忆的闭源LLMs作为规划者。它们主要使用提示技术来指导闭源LLMs进行决策和规划,以完成没有长期记忆的任务。(b) 类型II:没有长期记忆的微调LLMs作为规划者。它们使用与动作相关的数据来微调现有的开源大型模型,使它们能够实现与闭源LLMs相当的决策、规划和工具调用能力。与(a)和(b)不同,©和(d)引入了长期记忆功能,进一步增强了它们在接近真实世界环境中的泛化和适应能力。然而,由于它们的规划者使用不同的方法来检索记忆,它们可以进一步细分为:© 类型III:间接长期记忆的规划者;(d) 类型IV:本地长期记忆的规划者。

在规划过程中,它们首先检索相关经验,帮助规划者深思熟虑以减少不确定性。此外,[12]利用人类在执行相同任务时在不同状态下制定的计划。当遇到类似状态时,规划者可以参考这些“标准答案”进行思考,从而制定更加理性的计划。此外,[71]采用更复杂的规划方法,如蒙特卡洛,扩大规划搜索范围以找到最佳的规划策略。

  • 规划方法:现有的规划策略可以分为两种类型:动态规划和静态规划,如表1所示。前者[57, 43, 70, 30, 41]指的是根据初始输入将目标分解为一系列子计划,类似于Chain of Thought (CoT) [80],在此过程中即使出现错误,计划也不会重新制定;后者[9, 25, 51, 71]意味着每个计划都是基于当前环境信息或反馈制定的。如果在计划中检测到错误,将返回原始状态进行重新规划[12]。

动作。多模态代理系统中的动作组件负责执行规划者制定的计划和决策。它将这些计划转化为具体的动作,例如使用工具、物理移动或与界面交互,从而确保代理能够准确高效地实现其目标并与环境进行交互。我们讨论的重点在于两个方面:类型和方法。

图3:两种多代理框架的示意图:在这两种框架中,面对来自环境的任务或指令,完成依赖于多个代理的合作。每个代理负责特定的职责,可能涉及处理环境信息或处理决策和规划,从而分担原本由单个代理承担的任务压力。框架(b)的独特之处在于其具有长期记忆能力。

表1中的动作分为三类:工具使用(T)、实体动作(E)和虚拟动作(V),其中工具包括视觉基础模型(VFMs)、API、Python等(如表2所列);实体动作由物理实体执行,如机器人[32, 7]或虚拟角色[51, 52, 45, 68];虚拟动作[8, 76, 44, 54]包括网络任务(例如点击链接、滚动和键盘使用)。就方法而言,如表1所示,主要有两种类型。第一种类型涉及使用提示为代理提供关于可执行动作的信息,例如当前可用的工具及其功能;第二种类型涉及收集有关动作的数据,并利用这些信息自我指导开源大型模型的微调过程,例如LLaVA [23]。这些数据通常由先进模型生成,如GPT-4。与仅涉及语言的代理相比,与动作相关的信息和数据的复杂性需要更复杂的方法来优化学习策略。

表2:不同工具的摘要,包括它们对应的模态、技能和可用来源。

记忆。早期研究表明,记忆机制在通用代理的运作中起着至关重要的作用。与人类类似,代理的记忆可以分为长期记忆和短期记忆。在简单环境中,短期记忆足以让代理处理手头的任务。然而,在更复杂和现实的环境中,长期记忆变得至关重要。在表1中,我们可以看到只有少数LMAs包含长期记忆。与仅涉及语言的代理不同,这些多模态代理需要能够跨多种模态存储信息的长期记忆。在一些研究中[71, 47, 69, 7],所有模态都被转换为文本格式进行存储。然而,在[51]中,提出了一个多模态长期记忆系统,专门设计用于存档先前成功的经验。具体而言,这些记忆被存储为键-值对,其中键是多模态状态,值是成功的计划。在遇到新的多模态状态时,基于它们的编码相似性检索最相似的示例:

p ( t ∣ x ) ∝ CLIP ⁡ v ( k t ) ⊤ CLIP ⁡ v ( k x ) , p(t \mid x) \propto \operatorname{CLIP}_v\left(k_t\right)^{\top} \operatorname{CLIP}_v\left(k_x\right), p(tx)CLIPv(kt)CLIPv(kx),

其中 k t k_t kt代表通过CLIP模型编码的键的视觉信息,用于与当前通过CLIP编码的视觉状态 k x k_x kx进行相似性比较。

LMAs的分类法

在本节中,我们通过将现有研究分类为四种类型来提出LMAs的分类法。

类型I:没有长期记忆的闭源LLMs作为规划者。 早期研究[11, 43, 57, 41, 9, 25]利用提示来利用闭源大型语言模型(例如GPT-3.5)作为推理和规划的规划者,如图2(a)所示。根据特定环境或任务要求,这些计划的执行可以通过下游工具包或通过直接与环境使用物理设备(如鼠标或机器人手臂)进行交互来实现。这种类型的LMAs通常在更简单的环境中运作,承担传统任务,如图像编辑、视觉定位和视觉问答(VQA)。

类型II:没有长期记忆的微调LLMs作为规划者。 这种类型的LMAs涉及收集多模态指令遵循数据或利用自我指导来微调开源大型语言模型(如LLaMA)[67]或多模态模型(如LLaVA)[23, 46],如图2(b)所示。这种增强不仅使模型能够作为推理和规划的中心“大脑”,还能执行这些计划。类型II LMAs面临的环境和任务与类型I类似,通常涉及传统的视觉或多模态任务。与相对简单动态、封闭环境和基本任务的典型场景相比,在Minecraft等开放世界游戏中,LMAs需要在动态环境中执行精确的规划,处理高复杂度的任务,并进行终身学习以适应新挑战。因此,建立在类型I和类型II基础上,类型III和类型IV LMAs集成了记忆组件,展现了在人工智能领域发展成通用代理的巨大潜力。

类型III:具有间接长期记忆的规划者。 对于类型III LMAs[71, 47],如图2©所示,LLMs充当中央规划者,并配备长期记忆。这些规划者通过调用相关工具访问和检索长期记忆,利用这些记忆增强推理和规划。例如,在[71]开发的多模态代理框架专为视频处理等动态任务而设计。该框架包括一个规划者、一个工具包和一个与任务相关的记忆库,目录化空间和时间属性。规划者利用专门的子任务工具查询记忆库,以获取与视频内容相关的时空属性,实现对任务相关时空数据的推理。存储在工具包中,每个工具都设计用于特定类型的时空推理,并在框架内充当执行者。

类型IV:具有本地长期记忆的规划者。 与类型III不同,类型IV LMAs[51, 37, 7, 76]具有LLMs直接与长期记忆交互,绕过了访问长期记忆的工具的需要,如图2(d)所示。例如,在[51]提出的多模态代理展示了在Minecraft开放世界环境中完成200多个不同任务的熟练能力。在他们的多模态代理设计中,交互式规划者将多模态输入转化为文本。规划者进一步采用自检机制来预测和评估执行中的每一步,主动发现潜在缺陷,并结合环境反馈和自我解释,迅速纠正和完善计划,无需额外信息。此外,这个多模态代理框架包括一个新颖的多模态记忆。成功的任务计划及其初始多模态状态被存储,规划者从数据库中检索类似状态用于新任务,利用积累的经验实现更快、更高效的任务完成。

多代理协作

在本节中,我们进一步介绍LMAs的协作框架,超越了对孤立代理的讨论。
如图3(a)(b)所示,这些框架采用多个语言模型代理(LMAs)协同工作。这两种框架的关键区别在于是否存在记忆组件,但它们的基本原理是一致的:多个LMAs具有不同的角色和责任,使它们能够协调行动,共同实现共同目标。这种结构减轻了单个代理的负担,从而提高了任务性能[12, 37, 17, 29]。

例如,在[37]提出的多模态代理框架中,引入了一个感知代理来感知包含大型多模态模型的多模态环境。一个被称为巡逻者的代理负责与感知代理进行多次交互,对感知到的环境数据进行实时检查和反馈,以确保当前计划和行动的准确性。当检测到执行失败或需要重新评估时,巡逻者向规划者提供相关信息,促使重新组织或更新子目标下的行动序列。MemoDroid框架[17]包括几个关键代理,它们协同工作来自动化移动任务。探索代理负责对目标应用程序界面进行离线分析,生成基于UI元素的潜在子任务列表,然后将其存储在应用程序内存中。在在线执行阶段,选择代理根据用户命令和当前屏幕状态确定要执行的特定子任务。推理代理进一步识别并完成所选子任务所需的基本动作序列,通过提示LLM。同时,回忆代理在遇到与先前学习到的任务类似的任务时,可以直接调用和执行来自内存的相应子任务和动作序列。

评估

研究的主要重点是增强当前LMAs的能力。然而,对于这些代理的评估和评估方法却付出了有限的努力。大多数研究仍然依赖于传统的性能评估指标,这清楚地说明了评估LMAs的挑战。这也凸显了在这一领域制定实用的评估标准和建立基准数据集的必要性。本节总结了对LMAs的现有评估,并提出了未来发展的观点。

主观评估

主观评估主要是指利用人类来评估这些LMAs的能力。我们的最终目标是创建一个可以像人类一样理解世界并自主执行各种任务的LMA。因此,采用人类用户对LMAs能力的主观评估至关重要。主要评估指标包括多样性、用户友好性、可扩展性、价值和安全性。

多样性。 多样性表示一个LMA灵活地利用各种工具的能力,执行物理和虚拟行动,并管理各种任务。[30]提出了比较现有LMAs所使用工具的规模和类型,以及评估它们的能力多样性。

用户友好性。 用户友好性涉及用户对LMAs完成任务的结果满意程度,包括效率、准确性和结果的丰富性。这种评估相对主观。在[64]中,对LMA的人类评估对于准确评估其在解释和执行用户指令方面的有效性至关重要。

可扩展性。 可扩展性基本上评估LMAs吸收新的能力并应对新兴挑战的能力。鉴于人类需求的动态性,严格评估LMAs的适应能力和终身学习潜力至关重要。例如,在[23]的评估中,重点关注代理在使用先前未见过的工具完成任务方面的熟练程度。

价值和安全性。 除了之前提到的指标外,“价值和安全性”指标在确定代理对人类用户的实际意义和安全性方面起着关键作用。尽管许多当前的评估忽视了这一指标,但考虑LMAs的“价值和安全性”是至关重要的。与语言代理相比,LMAs可以处理更广泛的任务类别,这使得它们更需要遵循与人类社会价值观一致的道德原则。

客观评估

客观评估与主观评估不同,它依赖于定量指标来全面、系统地和标准化地评估LMAs的能力。目前,这是多模态代理研究中最广泛采用的评估方法。

指标。 指标在客观评估中起着至关重要的作用。在当前的多模态智能体研究中 [43, 70, 9, 71, 12, 57, 30],采用了特定与任务相关的指标,例如智能体在视觉问答(VQA)等任务中生成答案的准确性 [10, 43]。然而,在大语言模型出现之前建立的传统任务指标并不足以有效评估由大语言模型驱动的多模态智能体。因此,越来越多的研究工作致力于确定更适合评估的指标。例如,在 VisualWebArena [16] 中,设计了一种专门的评估指标,用于评估多模态智能体在处理视觉引导任务中的表现。这包括衡量智能体对网页内容的视觉理解准确性,例如识别和利用由 Set-of-Marks 标记的可交互元素进行操作,并根据任务目标实现状态转换,如手动设计的奖励函数所定义。此外,还包括对特定视觉场景问题的回答准确性以及基于视觉信息执行的动作对齐度。

基准。 基准代表一个测试环境,包括一套评估标准、数据集和任务。它用于评估和比较不同算法或系统的性能。与传统任务的基准相比 [30, 12, 57, 23],SmartPlay [58] 使用精心设计的一组游戏全面衡量多模态智能体的各种能力,为每种能力建立详细的评估指标和挑战级别。与使用游戏评估的方法相反,GAIA [34] 开发了一个包含 466 个问题及其答案的测试集。这些问题要求 AI 系统具备一系列基本能力,如推理、处理多模态信息、网页导航和熟练的工具使用。与为人类创建越来越困难的任务的当前趋势不同,它专注于对现有先进 AI 系统提出概念简单但具有挑战性的问题。这些问题涉及需要精确执行复杂操作序列的真实场景,输出易于验证。类似地,VisualWebArena [16] 是一个基准测试套件,旨在评估和推进多模态智能体在处理真实网页上的视觉和文本理解任务方面的能力。还有其他基准 [31, 61] 有效地测试了智能体的能力。

应用

多模态智能体在处理多样数据模态方面胜过仅限于语言的智能体,在各种场景下的决策制定和响应生成方面表现出色。它们的适应性使它们在真实世界的多感官环境中异常有用,如图 4 所示。

图形用户界面自动化。 在这个应用中,多模态智能体的目标是理解和模拟用户界面内的人类操作,实现重复任务的执行、跨多个应用程序的导航以及简化复杂工作流程。这种自动化有潜力节省用户的时间和精力,让他们专注于工作的更为重要和创造性的方面 [44, 6, 53, 64, 75, 69, 54, 17, 8]。例如,GPT-4V-Act [6] 是一种先进的人工智能,结合了 GPT-4V 的能力与网络浏览,以改进人机交互。它的主要目标是使用户界面更易访问,简化工作流程自动化,并增强自动化的用户界面测试。这种人工智能对于残障人士或技术能力有限的人特别有益,帮助他们更轻松地导航复杂界面。

图 4: 大语言模型的各种应用。

机器人技术与体验智能。这一应用 [37, 51, 68, 52, 45, 65, 79] 侧重于将机器人的感知、推理和行动能力与其在环境中的物理交互相结合。通过使用多模态智能体,机器人能够利用视觉、听觉和触觉等多样的感官通道,获取全面的环境数据。例如,MP5 系统 [37] 是一个先进的多模态实体系统,用于 Minecraft,利用主动感知来智能地分解并执行大语言模型的广泛、无限期的任务。

游戏开发。游戏人工智能 [58, 16] 旨在设计和实现这些智能体,以展示智能和逼真,从而提供引人入胜且具有挑战性的玩家体验。在游戏中成功整合智能体技术已经导致更复杂和互动性更强的虚拟环境的创建。

自动驾驶。 传统的自动驾驶方法[33]在有效感知和解释复杂情景方面面临障碍。最近在多模态代理技术方面取得的进展,特别是由LLMs推动的,标志着在克服这些挑战并弥合感知差距[32, 7, 81, 55]方面的重大进步。[32]提出了GPT-Driver,这是一种开创性的方法,它将OpenAI GPT-3.5模型作为自动驾驶车辆的可靠运动规划器,专注于生成安全舒适的驾驶轨迹。利用LLMs固有的推理能力,他们的方法为新的驾驶情景中的有限泛化问题提供了一个有前景的解决方案。

视频理解。 视频理解代理[9, 71]是专门设计用于分析和理解视频内容的人工智能系统。它利用深度学习技术从视频中提取关键信息,识别物体、动作和场景,以增强对视频内容的理解。

视觉生成与编辑。 这类应用[4, 70, 47]旨在创建和操作视觉内容。利用先进技术,这种工具轻松创建和修改图像,为用户提供了创意项目的灵活选择。例如,LLaVA-Interactive [4]是一个开源的多模态交互系统,它整合了预训练AI模型的能力,以便进行带有视觉线索的多轮对话并生成编辑后的图像,从而实现了一种经济、灵活和直观的AI辅助视觉内容创建体验。

复杂视觉推理任务。 这一领域是多模态代理研究的重点,主要强调多模态内容的分析。这种普及归因于LLMs在理解和推理基于知识的查询方面的优越认知能力,超越了先前模型的能力[14, 25, 80]。在这些应用中,主要关注的是QA任务[41, 57, 70, 30]。这涉及利用视觉模态(图像或视频)和文本模态(问题或附带文档的问题)进行推理响应。

音频编辑与生成。 这个应用中的LMAs将音频领域的基础专家模型集成在一起,使音乐的编辑和创作更加高效[77, 73, 13, 26]。

结论与未来研究

在这项调查中,我们对由LLMs(LMAs)驱动的多模态代理的最新研究进行了全面概述。我们首先介绍了LMAs的核心组件(即感知、规划、行动和记忆),并将现有研究分类为四类。随后,我们汇编了用于评估LMAs的现有方法,并设计了一个全面的评估框架。最后,我们重点介绍了LMAs领域内一系列当前和重要的应用场景。尽管取得了显著进展,但该领域仍面临许多未解决的挑战,仍有相当大的改进空间。最后,我们基于已审查的进展,重点介绍了几个有前景的方向:

  • 关于框架:LMAs未来的框架可能会从两个不同的视角发展。从单个代理的角度来看,发展可能会朝着创建一个更统一的系统的方向发展。这涉及到规划者直接与多模态环境[71]交互,利用全面的工具[30],并直接操纵记忆[51];从多个代理的角度来看,促进多个多模态代理之间有效协调,以执行集体任务,成为一个关键的研究方向。这包括关键方面,如协作机制、通信协议和战略任务分配。

  • 关于评估:对于这一领域,系统化和标准的评估框架非常渴望。理想的评估框架应该涵盖一系列评估任务[58, 16],从简单到复杂不等,每个任务都具有重要的相关性和效用性。它应该包含明晰而明智的评估指标,精心设计以全面而非重复的方式评估LMAs的多样能力。此外,用于评估的数据集应该经过精心策划,以反映更接近真实情景的情况。

  • 关于应用:LMAs在现实世界中的潜在应用是巨大的,为以前对传统模型而言具有挑战性的问题提供了解决方案,例如网络浏览。此外,LMAs与人机交互领域的交汇[54, 44]代表着未来应用的一个重要方向。它们从各种模态处理和理解信息的能力使它们能够执行更复杂和细微的任务,从而增强了它们在现实世界情景中的效用,并改善了人与机器之间的互动。

点击阅读全文
Logo

更多推荐