简介

文章系统综述了具身AI的发展,从单模态到多模态的演变,重点分析了LLMs通过语义推理提供认知能力,WMs通过物理模拟提供交互能力。论文提出联合MLLM-WM架构,结合两者优势,弥补各自局限,使智能体能在物理世界中执行复杂任务。文章介绍了具身AI在服务机器人、救援无人机等领域的应用,并探讨了未来研究方向,为具身AI向通用物理智能发展提供思路。


  • 作者:Tongtong Feng, Xin Wang, Yu-Gang Jiang, Wenwu Zhu
  • 单位:清华大学计算机科学与技术系,北京信息科学与技术国家研究中心,复旦大学可信具身智能研究所
  • 论文标题:Embodied AI: From LLMs to World Models
  • 论文链接:https://arxiv.org/pdf/2509.20021v1

主要贡献

  • 系统性综述与分析:全面地探索了从基础到前沿的具身智能(Embodied AI)相关文献,涵盖了由LLMs(大语言模型)驱动和WMs(世界模型)驱动的研究工作,为读者提供了一个清晰的具身AI研究全景。
  • 提出联合架构:基于对LLMs和WMs在具身AI中作用的深入分析,提出了联合MLLM(多模态LLMs)-WM驱动的具身AI架构,强调了这种联合架构在使能物理世界中复杂任务执行方面的深远意义,为未来具身AI系统的设计提供了新的思路和方向。
  • 应用与趋势探讨:总结了具身AI在服务机器人、救援无人机、工业机器人等多个领域的代表性应用,展示了其在现实世界场景中的广泛适用性,同时也指出了具身AI未来值得进一步研究的方向,为后续研究和实践提供了指引。

介绍

研究背景

  • 具身智能(Embodied AI)起源于1950年图灵提出的具身图灵测试,旨在探索智能体是否能模仿人类智能以实现通用人工智能(Artificial General Intelligence, AGI)。具身AI基于认知科学和神经科学的见解,认为智能是从感知、认知和交互的动态耦合中涌现出来的。具身AI包括三个关键组成部分:主动感知(通过传感器驱动的环境观察)、具身认知(基于历史经验驱动的认知更新)和动态交互(通过执行器介导的动作控制)。此外,硬件实体化也至关重要,因为具身AI系统在真实世界部署时面临着计算和能量需求不断增长的挑战,尤其是在设备的延迟和功耗限制下。
  • 具身AI的发展经历了从单模态到多模态的转变。早期的具身AI主要关注单个模态,如视觉、语言或动作,每个模块由单一的感官输入驱动。然而,单模态方法存在信息范围有限和跨模块模态间存在固有差距的局限性。因此,具身AI逐渐向多模态融合的方向发展,以创建更具适应性、灵活性和鲁棒性的智能体,使其能够在动态环境中执行复杂任务。

LLMs和WMs的作用

  • LLMs(大语言模型):LLMs通过语义推理和任务分解为具身AI提供了强大的认知能力,能够将自然语言指令和动作转化为具身认知。例如,SayCan通过提供一个预训练的自然语言动作库,限制LLMs提出不可行和不适当的动作;使用LLMs将自然语言指令转换为自然语言动作序列;并通过价值函数验证特定物理环境中自然语言动作序列的可行性。然而,LLMs在物理约束和实时适应性方面存在局限性。
  • WMs(世界模型):WMs通过构建外部世界的内部表示和未来预测,为具身AI提供了物理规律合规的交互能力。内部表示将丰富的感官输入压缩成结构化的潜在空间,捕捉物体动态、物理定律和空间结构,使智能体能够推理其周围环境中“存在什么”以及“事物如何行为”。未来预测则通过模拟符合物理定律的序列动作的潜在奖励,从而预防风险或低效行为。然而,WMs在开放性语义推理和泛化任务分解方面存在不足。

研究动机

  • 尽管LLMs和WMs在具身AI中各自发挥了重要作用,但它们也存在各自的局限性。LLMs在语义推理和任务分解方面表现出色,但在物理约束和实时适应性方面表现不佳。WMs在物理模拟和未来预测方面表现出色,但在语义推理和泛化任务分解方面存在不足。
  • 因此,论文提出了联合MLLM-WM驱动的具身AI架构,旨在将语义智能与基于物理的交互相结合,弥补LLMs和WMs单独使用时的不足,推动具身AI从专用智能体向通用物理智能的发展。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

研究内容和结构

  • 本文全面介绍了具身AI的基础知识和最新进展,涵盖了LLMs和WMs在具身AI中的应用。具体来说,本文首先介绍了具身AI的历史、关键技术、关键组件和硬件系统,并从单模态到多模态的角度讨论了其发展。
  • 接着,本文详细探讨了LLMs和MLLMs在具身AI中的应用,以及WMs在具身AI中的应用。基于这些进展,本文进一步提出了联合MLLM-WM驱动的具身AI架构,并讨论了其在使能物理世界中复杂任务执行方面的深远意义。
  • 此外,本文还总结了具身AI在服务机器人、救援无人机、工业机器人等领域的代表性应用,并指出了具身AI未来值得进一步研究的方向。

具身智能

历史视角

  • 具身AI的理论根源可以追溯到1950年图灵提出的具身图灵测试,强调智能与身体体验的紧密联系。1980年代,认知科学进一步发展了这一观点,认为人类认知源于身体体验。随后,机器人技术的进步将这些理论付诸实践,如Brooks提出的分层反应式控制架构,以及Cog项目中的人形机器人开发。
  • 近年来,深度学习的发展推动了具身AI从机器人运动控制向适应性交互的转变,使机器人能够从原始传感器数据中学习复杂的非线性映射,显著提升了导航和操作任务的性能。然而,具身AI在动态不确定环境中实现自我反思智能仍然是一个关键挑战。

关键技术与组件

主动感知

主动感知是指智能体有选择地从环境观察中获取信息。现有方法大致可分为视觉SLAM、3D场景理解和主动环境探索三类。

  • 视觉SLAM:通过视觉输入实现自我定位和环境地图构建,如ORB-SLAM和TwistSLAM等方法,通过结合几何优化和语义信息提高了在动态环境中的鲁棒性。
  • 3D场景理解:使智能体能够以结构化和语义化的方式感知、分割和推理复杂环境。例如,Clip2Scene和OpenScene利用视觉语言嵌入促进3D理解,而GraphDreamer通过场景图或语义词典等结构化表示增强对3D空间中对象关系的理解。
  • 主动环境探索:使智能体能够通过与环境的交互自主获取信息。例如,APT和DBMF-BPI等方法通过直接与环境交互进行探索,而ActiveRIR进一步通过多模态感知和语义推理增强探索能力。
具身认知

具身认知是指智能体在与环境交互过程中,通过自我反思形成内部表示和推理能力。具身认知的研究主要集中在任务驱动的自我规划、记忆驱动的自我反思和具身多模态基础模型三个方面。

  • 任务驱动的自我规划:智能体根据任务目标、环境上下文和内部知识自主生成结构化计划。例如,LLM-Planner和AutoAct将LLMs集成到规划中,通过语言引导的推理实现任务规划。
  • 记忆驱动的自我反思:智能体利用过去的经验进行长期推理、错误纠正和自我改进。例如,Reflexion和Reflect使智能体能够通过自我反馈迭代修正行为,而Optimus-1和REMAC则通过多模态或多智能体记忆支持长期协作。
  • 具身多模态基础模型:在MLLMs时代,具身多模态基础模型成为统一规划、推理和其他具身认知能力的有前景的解决方案。例如,SayCan和GATO等模型将语言理解与具身动作空间对齐,而EmbodiedGPT和Kosmos-2则通过视觉语言预训练促进可扩展的具身推理。
动态交互

动态交互是指智能体通过动作或行为影响环境,基于其感知和认知进行交互。研究涵盖动作控制、行为交互和协作决策。

  • 动作控制:生成具身交互的电机命令。例如,PaLM-E、RT-2和OpenVLA等视觉语言动作(VLA)模型将语言引导的推理整合到灵活的控制中,而CrossFormer和HPT等方法则通过跨体现学习统一不同机器人的策略学习。
  • 行为交互:强调通过有意义的动作模式进行高级控制,使智能体能够以灵活和目标导向的方式进行交互。例如,GAIL和MGAIL等模仿学习方法使智能体能够高效地获取和模拟复杂行为,而AgentLens和ECL等方法则通过行为感知增强策略的鲁棒性和可解释性。
  • 协作决策:协调多个智能体实现共享目标,对多智能体系统和人机协作至关重要。例如,QTRAN、QPLEX和Qatten等多智能体强化学习方法通过集中训练和分散执行解决合作问题,而MetaGPT、CoELA和AgentVerse等方法则通过LLMs和WMs增强多智能体协作。

硬件

随着具身AI的发展,模型复杂性和规模不断增加,对计算和能源需求也日益增长。具身系统通常在动态的真实世界环境中运行,面临着严格的延迟和功耗限制。因此,开发硬件友好的方向,同时保持性能并优化效率,对于实现响应迅速、节能的具身智能体至关重要。硬件优化在具身AI中通常包括硬件感知模型压缩、编译器级优化、特定领域加速器和硬件软件协同设计。

  • 硬件感知模型压缩:通过量化和剪枝等技术减少模型大小和计算成本。例如,量化将权重和激活映射到较低的比特宽度,而剪枝则去除冗余参数。为了支持真实世界的具身任务,如机器人控制或视觉导航,硬件效率指标(如功耗、性能和面积)可以指导比特宽度分配或剪枝比率,实现任务特定的准确性与部署效率之间的权衡。
  • 编译器级优化:编译器作为连接高级具身AI模型和硬件执行的桥梁,在实时具身系统中,编译器工具链对于传感器数据的高效处理和决策制定至关重要。例如,TVM基于LLVM和CUDA生成跨平台的优化代码。这些编译器通过操作融合和消除冗余计算来转换计算图,从而实现响应式行为。循环重新排序和分块等映射策略增强了数据局部性、并行性和内存访问,这对于维持具身AI系统中的低延迟推理至关重要。
  • 特定领域加速器:随着计算需求的增长,特定领域加速器(DSAs)成为具身AI的一个有前景的解决方案。例如,谷歌的TPU通常通过PCIe与CPU和GPU集成,加速矩阵乘法等关键操作。FPGA加速器允许重新配置,以适应新任务或变化的工作负载;CGRA加速器改进了结构化、数据流密集的计算,这些计算在感知或控制中很常见;而ASIC加速器则提供了高吞吐量和能源效率,非常适合在真实环境中部署高性能的具身AI模型。
  • 硬件软件协同设计:将算法和硬件设计分开可能会降低运行时效率。硬件软件协同设计通过算法系统和算法硬件的协同优化来解决这个问题。算法系统协同优化侧重于如何充分利用GPU资源,如张量核心和CUDA核心,以更好地支持算法。算法硬件协同优化旨在通过调整模型和硬件架构来提高部署效率。例如,可以根据网络中的操作类型和硬件的配置参数进行多目标优化。还可以设计不同的数值量化方案以及匹配的硬件加速器,以更好地支持具身AI任务。

基准和评估指标

广泛采用的测试平台包括:

  • Habitat(提供逼真的3D室内环境,用于导航和交互任务)、ManiSkill(提供基于物理的操纵场景和多样化对象集)、MuJoCo(在连续状态空间中实现精确控制评估)以及EmbodiedBench(支持视觉驱动智能体在感知、认知和交互方面的全面评估)。对于无人机应用,AirSim、U2UData和U2USim提供了具有动态障碍的高保真空中环境。
  • 这些测试平台在复杂性上各有不同:Habitat在视觉逼真度方面表现出色,ManiSkill在对象多样性方面表现出色,MuJoCo在物理准确性方面表现出色,而EmbodiedBench在多模态集成方面表现出色。
  • 领域特定的基准,如BEHAVIOR-1K,进一步使我们能够在现实世界条件下对1000种日常活动进行细致评估。

关键评估指标涵盖三个关键维度:

  • 任务成功率衡量目标导向目标的完成准确性(例如,对象操纵或导航);
  • 实时响应性量化决策延迟和对环境变化的适应速度;
  • 能源效率评估部署期间的计算成本(FLOPS)和功耗(瓦特)。
  • 其他指标包括导航效率的路径长度、未见场景的泛化分数以及物理合规性的安全违规次数。
  • 对于多智能体系统,协调效率和通信开销提供了关键见解。
  • 标准化评估协议,如MFE-ETP中的那些,确保了跨模态比较的公平性,尽管在从模拟到现实的转移验证方面仍存在挑战。

从单模态到多模态

具身AI的发展经历了从单模态到多模态的演变。最初,具身AI主要关注单个模态,如视觉、语言或动作,每个模块由单一的感官输入驱动。然而,随着研究的深入,单模态具身AI的局限性逐渐显现,促使研究者转向多模态融合的方向。

  • 单模态具身AI的局限性:单模态方法在处理具身AI的特定模块时表现出色,但存在信息范围有限和跨模块模态间存在固有差距的局限性。例如,仅依赖视觉的系统在动态或模糊环境中难以理解环境,而仅依赖听觉的系统则面临现实世界中的噪声和信号处理挑战。
  • 多模态具身AI的优势:多模态具身AI通过整合来自多个感知模态(如视觉、听觉和触觉反馈)的数据,提供对环境更全面和精确的理解。更重要的是,多模态具身AI能够促进感知、认知和交互之间的更深层次整合。例如,MLLMs和WMs的最新进展使智能体能够更有效地处理多模态数据,有望提升具身AI在动态、不确定环境中的能力。

基于LMS/MLLMS的具身智能

LLMs增强具身AI

LLMs通过语义推理和任务分解为具身AI提供了强大的认知能力,能够将自然语言指令和动作转化为具身认知。

语义推理
  • LLMs通过分析语言指令中的语言模式、上下文关系和隐含知识来解释语义。通过Transformer架构,LLMs将输入标记映射到潜在表示中,实现从语法到语用层面的层次化语义抽象。
  • LLMs利用注意力机制,对相关的语义线索进行加权,同时抑制噪声,支持逻辑推理和类比推理。通过将预训练语料库中的世界知识与任务特定提示相结合,LLMs动态构建概念图,将文本输入与预期结果对齐。
  • 例如,SayCan通过预训练的自然语言动作库,限制LLMs提出不可行和不适当的动作,然后将自然语言指令转换为自然语言动作序列,并通过价值函数验证这些动作序列在特定物理环境中的可行性。
任务分解
  • LLMs利用其序列逻辑,将复杂目标分解为子任务,通过层次化分析上下文依赖关系和目标对齐来实现。通过链式思考提示,LLMs迭代解析指令,生成可操作的步骤,同时通过语义一致性解决歧义。
  • 例如,SayCan使用LLMs将自然语言指令转换为自然语言动作序列,并通过价值函数验证这些动作序列在特定物理环境中的可行性。这种方法使机器人能够根据自然语言指令执行复杂的任务。

MLLMs增强具身AI

MLLMs能够处理整个具身AI系统,通过桥接高级多模态输入和低级电机动作序列,实现端到端的具身应用。与LLMs相比,MLLMs在多模态输入的语义推理和任务分解方面表现出色,能够动态适应基于传感器反馈的计划。

视觉语言模型在具身AI中的应用
  • VLMs将视觉和语言指令理解相结合,使物理或虚拟智能体能够在目标驱动的任务中感知环境。例如,PaLM-E首先训练视觉和语言编码,然后将这些编码与预训练的LLMs结合,实现多任务完成。
  • 例如,ShapeNet通过微调对比嵌入,实现3D空间推理,显著减少路径规划误差。这些工作表明,VLMs能够将感知和推理结合起来,解决具身AI中的许多任务。
视觉语言动作模型在具身AI中的应用
  • VLAs将多模态输入与低级动作控制通过可微分的管道整合在一起。例如,RT-2将机器人的当前图像、语言指令和机器人动作编码为文本标记,然后使用LLMs进行语义推理和任务分解,最后将生成的标记解码为最终动作。
  • 例如,Octo在10万个机器人演示和语言注释上进行预训练,实现跨体现工具使用。PerAct利用3D体素表示实现毫米级抓取精度。这些工作表明,VLAs能够处理整个具身AI系统,并在新机器人和环境中实现适应性扩展。

具身AI中MLLMs的分类

MLLMs可以增强具身AI的主动感知、具身认知和动态交互。

MLLMs在主动感知中的应用
  • MLLMs可以增强3D SLAM,通过将视觉观察与语义表示相结合,为传统SLAM管道增添高级上下文信息,如对象类别、空间关系和场景语义。例如,SEO-SLAM利用MLLMs为对象生成更具体和描述性的标签,同时动态更新多类混淆矩阵,以减少对象检测中的偏差。
  • MLLMs还可以增强3D场景理解,将2D视觉输入映射到与语言目标对齐的语义丰富特征中。例如,EmbodiedGPT利用相机输入与视觉语言预训练的协同作用,将2D视觉输入映射到语义丰富的特征中。
  • MLLMs还可以增强主动环境探索,通过结构化运动级反馈,将碰撞检测等信号纳入规划循环,使模型能够迭代修订符号动作序列。例如,LLM3专注于结构化运动级反馈,而MART则利用交互反馈提高检索质量。
MLLMs在具身认知中的应用
  • MLLMs可以增强任务驱动的自我规划,具身智能体可以直接将高级目标映射到结构化动作序列,或者采用中间规划策略,通过与环境的持续交互来细化计划。例如,CoT-VLA预测中间子目标图像,这些图像描绘了子任务的期望结果,帮助智能体可视化并推理复杂任务的每一步。
  • MLLMs还可以增强记忆驱动的自我反思,使智能体能够通过其固有的记忆模块从经验中学习。例如,Reflexion通过自我生成的语言反馈增强智能体的性能,这种反馈存储在情节记忆缓冲区中,并用于指导未来的规划。
  • MLLMs还可以增强具身多模态基础模型,通过在具身环境中持续预训练或微调,使MLLMs适应物理世界。例如,QwenVL和InternVL等模型支持更广泛的模态对齐,如多模态语言模型。
MLLMs在动态交互中的应用
  • MLLMs能够将复杂任务分解为可操作的子任务,然后通过自回归方式生成每个子任务的连续控制信号,或者使用辅助策略头进一步处理其内部表示。例如,π-0结合视觉语言骨干和流匹配解码器,生成平滑、时间延长的行为轨迹。
  • MLLMs还可以增强协作决策,使多智能体系统能够实现人类水平的协调,并迅速适应不可预见的挑战。例如,Combo引入了一种新框架,通过去中心化的智能体之间的协作,仅使用以自我为中心的视觉观察来增强协作。
  • MLLMs还可以增强人机协作,通过将人类口头命令与视觉上下文对齐,实现流畅和对话式的人机交互。例如,VLAS通过语音编码器和LLaVA风格的MLLM,将人类口头命令与视觉上下文对齐,实现可解释和适应性强的控制策略。

基于世界模型的具身智能

世界模型增强具身AI

世界模型通过构建外部世界的内部表示和未来预测,显著增强了具身AI的物理交互能力。这些模型使智能体能够在动态环境中进行物理规律合规的交互。

外部世界的内部表示
  • 内部表示将丰富的感官输入压缩成结构化的潜在空间,捕捉物体动态、物理定律和空间结构。这些表示使智能体能够推理其周围环境中“存在什么”以及“事物如何行为”。
  • 这些潜在嵌入保留了实体和环境之间的层次关系,反映了现实世界的组合性质。结构化的表示有助于跨环境的泛化,因为抽象的原理(如重力或物体恒存性)超越了具体实例。例如,通过编码时间和空间的连续性,这些模型在规划过程中自然地强制执行一致性约束,过滤掉不符合物理规律的动作,从而提高样本效率。
外部世界的未来预测
  • 未来预测通过模拟符合物理定律的序列动作的潜在奖励,从而预防风险或低效行为。这种预测能力将短期动作与长期目标联系起来,过滤掉违反物理规律(如穿墙)或战略连贯性(如过早耗尽资源)的轨迹。
  • 长期预测允许智能体在探索和利用之间进行自适应平衡,通过模拟远期结果来避免局部最优,同时保持对短期可行步骤的关注。例如,连续的预测误差最小化驱动模型的迭代细化,使系统能够自我纠正,使其内部的物理模拟器与观察到的现实对齐,从而提高样本效率。

具身AI中世界模型的分类

具身AI中的世界模型可以主要分为三类:基于循环状态空间模型(RSSM-based)的世界模型、基于联合嵌入预测架构(JEPA-based)的世界模型和基于Transformer的世界模型(Transformer-based WMs)。此外,还有基于层次结构的模型和基于扩散的模型。

基于RSSM的世界模型
  • RSSM是Dreamer算法家族的基础架构,通过视觉输入获取环境的时间动态,并在潜在表示中进行预测,从而实现基于潜在轨迹优化的动作选择。
  • RSSM通过正交分解隐藏状态为概率和确定性成分,明确考虑系统模式和环境不确定性。这种架构在机器人运动控制应用中表现出色,启发了许多后续研究。
基于JEPA的世界模型
  • JEPA提供了一种开发自主机器智能系统的方法,通过表示学习建立输入数据和预期结果之间的映射关系。
  • 与传统的生成方法不同,JEPA在抽象的潜在空间中操作,而不是生成像素级的重建,优先考虑语义特征提取而不是低级信号合成。
  • JEPA通过自监督训练范式,使神经网络能够推断出被遮挡或未观察到的数据片段。这种预训练方法使模型能够跨下游应用进行迁移学习,表现出更强的泛化能力。
基于Transformer的世界模型
  • Transformer结构最初用于自然语言处理研究,依赖于注意力机制来处理输入序列,通过并行上下文加权来克服循环神经网络(RNNs)的顺序处理限制。
  • Transformer在需要持久记忆保留和显式记忆寻址的认知推理领域表现出色,自2020年以来在强化学习研究中得到广泛应用。
  • 例如,Google的Genie框架使用空间-时间Transformer(ST-Transformer)通过大规模自监督视频预训练创建合成交互环境,为世界模型的发展提供了新的范式。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述
基于MLLMS和WMS具身智能

MLLMs和WMs的局限性及协同作用

  • MLLMs的局限性:MLLMs在具身AI中存在两大局限性。首先,它们往往无法将预测结果与物理动态规律相结合,导致计划不切实际。例如,在操纵物体时忽略摩擦力或材料属性,可能会导致物体滑落或任务失败。其次,MLLMs对环境反馈的实时适应性较差,限制了其响应能力。尽管MLLMs在语义任务分解方面表现出色,但它们在环境发生显著变化时难以自适应调整动作。这些局限性源于它们依赖于静态的预训练知识,而非持续的物理交互。
  • WMs的局限性:WMs在抽象推理和泛化方面存在挑战。它们在处理开放性语义任务时表现不佳,因为它们更侧重于物理模拟而非上下文理解。此外,WMs缺乏在没有明确先验知识的情况下进行泛化任务分解的能力。例如,一个在刚体操纵上训练的WM模型可能无法适应可变形材料,除非进行大量重新训练。其预测精度高度依赖于特定领域的交互记录,限制了其在多样化环境中的可扩展性。
  • MLLMs增强WMs的推理能力:MLLMs可以通过跨模态对齐和语义锚定来增强WMs的推理能力。例如,基于CLIP的架构能够使智能体将视觉场景与语言线索对齐,减少目标识别中的歧义。此外,MLLMs可以增强WMs的任务分解能力,将高级目标分解为可执行的子任务。例如,GPT-4V等模型可以利用存储在WMs中的环境上下文生成逐步计划。MLLMs还可以通过人类反馈来优化WMs的内部表示,例如通过强化学习与人类反馈(RLHF)技术,使智能体能够根据纠正性输入更新WMs的先验知识。
  • WMs增强MLLMs的交互能力:WMs可以通过提供物理定律、时空关系和闭环交互体验来优化MLLMs。例如,Physion++等模型可以将WMs中存储的生物力学模型整合进来,过滤掉违反扭矩限制的MLLMs生成的机器人动作。WMs还可以通过在多模态处理过程中维持时空上下文来稳定MLLMs的推理过程。例如,MemPrompt等模型可以利用WMs缓冲区对齐视觉目标轨迹与语言描述,解决复杂环境中的歧义问题。WMs还可以通过闭环交互使MLLMs的输出得到迭代细化。例如,Reflexion等模型可以将任务执行历史存储在WMs中,使MLLMs能够利用失败模式纠正运动学错误。

联合MLLM-WM驱动的具身AI架构

本节提出了联合MLLM-WM驱动的具身AI架构,展示了其在使能物理世界中复杂任务执行方面的深远意义。具体工作流程如下:

  • 机器人→自身状态输入→MLLMs/WMs→硬件实体化→机器人:流程从自身状态输入开始,追踪机器人的自由度、传感器数量等自身状态信息。这些信息输入到WMs和MLLMs中:WMs利用这些信息构建智能体的物理状态内部表示,而MLLMs则将这些状态信息与任务目标对齐。硬件实体化环节则将WMs和MLLMs集成到物理设备中,解决从仿真到现实的问题。这种双向数据流确保了动作既符合机械限制,又与高级任务目标一致。
  • MLLMs→任务规划→WMs→记忆更新→MLLMs:MLLMs将抽象指令分解为子任务,并将规划结果传递给WMs。WMs根据现有的环境模型预测执行结果,并将结果记录在记忆中。记忆更新模块将这些记录结构化为经验,包括遗忘过去的任务记忆、更新当前任务记忆以及预测未来任务记忆。这些更新后的记忆反馈给MLLMs,丰富其知识库,从而实现终身学习,使过去的失败经验能够直接指导未来的任务规划。
  • 环境→主动感知→MLLMs/WMs→动态交互→环境:WMs首先通过预测环境的关键变化来驱动主动感知。然后,多模态输入被用来通过WMs构建外部世界的内部表示,以及通过MLLMs进行语义推理。MLLMs的任务分解和WMs的未来预测共同使能动作选择和与环境的交互。通过持续的感知和交互,智能体能够适应动态环境中的变化。

讨论

  • 联合MLLM-WM架构为具身AI提供了一种有前景的解决方案。如上表所示,MLLMs在语义理解方面表现出色,能够进行高级任务分解、上下文理解和自适应规划,利用多模态输入。而WMs则提供了基于物理的环境模拟,确保动作符合现实世界的物理约束。
  • 这种协同作用使智能体能够在动态环境中平衡抽象推理和实时物理交互,从而增强决策能力。例如,MLLMs可以生成任务计划,而WMs可以验证其可行性,从而实现迭代优化。此外,联合架构支持跨模态泛化,通过桥接符号知识和传感器运动技能,提高在部分可观测或新场景中的鲁棒性。

然而,联合MLLM-WM驱动的具身AI架构也面临一些挑战:

  • MLLMs的高延迟语义处理与WMs基于物理的表示之间需要实时同步,这常常导致动态环境中的响应延迟。
  • 语义与物理之间的不一致性可能导致MLLMs生成的计划违反未被建模的物理约束。
  • WMs内部状态的持续更新可能会使MLLMs被无关上下文信息淹没,从而需要有效的记忆管理。
  • 此外,训练这样的系统需要大量涵盖罕见边缘情况的多模态数据集,同时确保在传感器噪声和部分可观测性存在的情况下系统的鲁棒性仍然是一个未解决的问题。
  • 这些挑战需要轻量级的MLLMs推理、更紧密的反馈循环以及动态上下文过滤机制,以最小化延迟并提高系统性能。

具身智能应用

服务机器人

具身AI在服务领域变得越来越重要,它使服务机器人能够超越固定规则,使用不同类型的信息灵活地执行任务。例如:

  • 家庭环境:系统如RT-2和SayCan结合语言指令与机器人控制,使机器人能够执行堆叠盘子或烹饪等任务。少样本学习方法如AED可以从有限的演示中获取新技能。
  • 医疗保健:具备多种输入类型的机器人可以帮助提醒、康复和陪伴。
  • 公共环境:平台如Habitat和RTX支持导航和物品递送,即使在不断变化的环境中,也无需对每个任务进行特殊训练,使系统更加通用和实用。

然而,当前的方法在处理长期任务方面仍然存在限制。联合WMs和MLLMs作为一种关键策略,正在兴起,以增强服务机器人的自主性和长期推理能力。WM维护不断演变的环境模型以支持规划和模拟,而MLLM将类似“清理客厅”这样的命令分解为适应性子任务。这种协作支持灵活推理、目标适应和在现实世界中的稳健性。

救援无人机

具身AI技术正在改变无人机在灾难情况下的使用方式。传统无人机要么手动控制,要么依赖预先构建的地图,这导致它们无法独立适应环境。然而,具身无人机可以实时感知环境并对突发变化做出响应,这使它们在地震区域、森林火灾或洪水等危险地带非常有用。例如:

  • 语言指令理解:借助语言模型,无人机能够理解和遵循人类语音指令,帮助无人机迅速改变行动,增强其在紧急情况下的响应能力,例如“在倒塌的桥梁附近搜索”。
  • 危险环境模拟:一些工作使用世界模型来模拟危险环境,帮助它们避免危险并规划更安全的路径。
  • 多无人机协作:其他研究探索了如何让多架无人机协同工作,以寻找幸存者并绘制受损区域的地图。

尽管取得了这些进展,但当前的方法在处理长期推理和在不确定性下的自主决策方面仍然存在限制。联合WMs和MLLMs已成为进一步增强无人机自主性的关键策略。WM维护连续演变的时空环境表示,支持即使在GPS受限条件下的规划和风险预测。MLLM根据无人机的信念状态将命令分解为结构化子任务。这种协调提高了任务关键场景中的泛化能力、长期推理能力和高级自主性。

工业机器人

具身AI正在改变工厂中机器人的工作方式。借助具身AI,工业机器人可以根据周围环境做出更智能的决策。传统工业机器人通常固定在一个位置,使用特殊的传感器和工具,并且需要以非常高的精度完成重复性的任务。然而,借助具身AI,这些机器人可以做到更多,例如:

  • 调整抓取力度:机器人可以根据物体的性质调整抓取脆弱物体的力度。
  • 路径规划:机器人在遇到障碍物时可以找到新的路径。
  • 实际应用:例如,特斯拉工厂的机器人可以自行找到并修复未对齐的部件,无需人工干预。JD的机器人使用不同类型的传感器根据大小和地址对包裹进行分类。在天猫仓库中,机器人使用热像仪、激光雷达和RGB传感器检查库存问题,并在发现问题时发出警报。

其他应用

除了在家庭、医疗保健和救援任务中的应用外,具身AI还被应用于教育、虚拟和太空环境等领域。例如:

  • 智能制造:支持能够与人类协作的机器人,执行精确的装配任务,并根据工作空间或人类行为的变化调整动作。
  • 教育:具身AI被用于社交机器人,它们可以根据学生的注意力和情绪调整语言、目光和手势,从而创造更加个性化的学习体验,并建立学生与机器人之间的长期信任。
  • 虚拟环境:具身智能体学习移动、与物体交互以及完成需要多个步骤的任务。它们还随着时间的推移发展记忆,以提高性能。
  • 太空探索:在条件未知且与地球通信延迟的情况下,具身AI允许机器人自主做出决策并适应新环境。

未来方向

自主具身AI

自主具身AI的目标是使智能体能够在动态开放环境中长期独立运行。未来的研究预计将在以下几个关键方向上发展:

  • 自适应感知:使系统能够自主选择输入数据,通过动态选择和整合来自不同感官模态的信息来实现。
  • 环境意识:帮助智能体快速适应变化,预测其行动的后果,并将其行为转移到新环境中。这需要能够捕捉时空模式并建模因果关系的记忆架构。
  • 实时物理交互:结合MLLMs与实时物理交互,使智能体能够将高级语言指令与低级控制相结合,并准确地模拟现实物理世界。

具身AI硬件

具身AI硬件的未来研究预计将在以下四个方向上发展:

  • 硬件感知模型压缩:继续将量化和剪枝等技术与硬件性能指标相结合,实现模型精度与部署效率之间的精确权衡。
  • 图级编译优化:在连接高级具身模型和低级硬件执行之间发挥关键作用,重点是更有效的操作融合、调度策略和内存访问效率,以减少执行开销。
  • 特定领域加速器:将越来越多地针对具身任务的计算特性进行定制。可重构架构(如FPGA和CGRA)提供灵活性和适应性,而ASIC设计则提供高效率和性能。
  • 硬件软件协同设计:对于消除算法行为和硬件架构之间的不匹配至关重要。模型结构和硬件架构的联合优化对于实现具身AI系统中的实时、节能执行至关重要。

群体具身AI

群体具身AI指的是多个智能体之间的协作感知和决策。由于多个智能体在协作时比单个智能体表现出更强的能力,这种“集体智能”引起了众多研究人员的兴趣,并被视为智能体接近人类的重要一步。未来的研究需要在以下几个方面取得进展:

  • 协作世界模型:开发能够基于每个智能体的观察建立共享且动态的环境表示的模型,形成集体理解的基础。
  • 多智能体表示学习:帮助智能体理解自身状态以及理解其他智能体的情况,这是智能体之间通信和协作的基础。
  • 社会行为建模:对智能体之间的社会行为进行建模至关重要。通过行为建模,可以更好地实现角色分配和群体决策。
  • 人-群体交互界面:为了无缝集成到实际应用中,还需要设计自然的人-群体交互界面。这可能包括基于多模态语言基础的控制方法,使人类更容易指导和引导整个智能体群体。

可解释性和可信度具身AI

可解释性和可信度是具身AI的关键前沿领域,对于其在安全、伦理和广泛现实世界部署中至关重要,因为智能体越来越多地与人类和动态环境进行物理交互。未来的研究必须解决以下几个关键挑战:

  • 实时可解释性基准:设计能够为智能体行动提供实时、人类可理解的解释的基准,特别是在意外情况或失败期间,这对于建立用户信任和调试至关重要。
  • 伦理决策机制:建立强大的机制,确保智能体在自主决策过程中遵守伦理原则和人类价值观,特别是在救援或医疗保健等常见道德模糊场景中。
  • 可验证的安全保证:为在非结构化物理环境中运行的智能体创建可验证的安全保证和认证标准,减轻与不可预测交互相关的风险。
  • 鲁棒性增强:增强对对抗性攻击、传感器噪声和分布偏移的鲁棒性,确保即使在现实世界中固有的不确定性下也能可靠运行。

其他方向

一些新的方向可能会影响具身AI的未来发展:

  • 终身学习:智能体需要持续学习新技能,同时不遗忘已经学到的内容。只有这样,它们才能适应动态环境并保持之前完成任务的准确性。
  • 人机交互学习:人类反馈是非常重要的监督信息。少量反馈可以显著提高智能体的性能并使其更具人性化。为此,我们需要更好的方法来使智能体能够理解人类的目标和偏好。
  • 道德决策:随着智能体变得越来越自主,道德决策变得越来越重要。未来的系统应该学会谨慎识别道德风险并遵循人类价值观。这将有助于确保嵌入式人工智能既安全又可靠。

总结

  • 具身AI的发展历程:从单模态到多模态的演变,具身AI在主动感知、具身认知和动态交互方面不断进步,LLMs和WMs的出现为其发展带来了新的机遇。
  • LLMs和WMs的作用:LLMs通过语义推理和任务分解增强了具身AI的认知能力,而WMs则通过构建外部世界的内部表示和未来预测,提升了具身AI的物理交互能力。
  • 联合MLLM-WM架构:提出了联合多模态LLMs(MLLMs)和世界模型(WMs)驱动的具身AI架构,该架构能够将语义智能与基于物理的交互相结合,显著提升了智能体在复杂物理世界中的任务执行能力。
  • 具身AI的应用:具身AI在服务机器人、救援无人机、工业机器人等多个领域展现了广泛的应用前景,为解决现实世界中的复杂任务提供了有效的解决方案。
  • 具身AI的发展历程:从单模态到多模态的演变,具身AI在主动感知、具身认知和动态交互方面不断进步,LLMs和WMs的出现为其发展带来了新的机遇。
  • LLMs和WMs的作用:LLMs通过语义推理和任务分解增强了具身AI的认知能力,而WMs则通过构建外部世界的内部表示和未来预测,提升了具身AI的物理交互能力。
  • 联合MLLM-WM架构:提出了联合多模态LLMs(MLLMs)和世界模型(WMs)驱动的具身AI架构,该架构能够将语义智能与基于物理的交互相结合,显著提升了智能体在复杂物理世界中的任务执行能力。
  • 具身AI的应用:具身AI在服务机器人、救援无人机、工业机器人等多个领域展现了广泛的应用前景,为解决现实世界中的复杂任务提供了有效的解决方案。
  • 未来研究方向:未来具身AI的研究将聚焦于自主具身AI、具身AI硬件、群体具身AI、可解释性和可信度具身AI等领域,以推动具身AI从专用智能体向通用物理智能的发展。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

更多推荐