具身智能：从 LLMs 到世界模型（下）

25年9月来自清华和复旦的综述论文“Embodied AI: From LLMs to World Models”。具身人工智能 (AI) 是实现通用人工智能 (AGI) 的智能系统范式，是各种应用的基石，并推动着从网络空间到物理系统的演进。大语言模型 (LLM) 和世界模型 (WM) 的最新突破，引发了人们对具身人工智能的广泛关注。一方面，LLM 通过语义推理和任务分解赋能具身人工智能，将高级自

硅谷秋水

658人浏览 · 2025-10-03 00:15:00

硅谷秋水 · 2025-10-03 00:15:00 发布

25年9月来自清华和复旦的综述论文“Embodied AI: From LLMs to World Models”。

具身人工智能 (AI) 是实现通用人工智能 (AGI) 的智能系统范式，是各种应用的基石，并推动着从网络空间到物理系统的演进。大语言模型 (LLM) 和世界模型 (WM) 的最新突破，引发了人们对具身人工智能的广泛关注。一方面，LLM 通过语义推理和任务分解赋能具身人工智能，将高级自然语言指令和低级自然语言动作引入具身认知。另一方面，WM 通过构建外部世界的内部表征和未来预测赋能具身人工智能，从而促进符合物理定律的具身交互。

本文全面探讨具身人工智能领域从基础到前沿的文献，涵盖 LLM 驱动和 WM 驱动的著作。具体而言，首先介绍具身人工智能的历史、关键技术、关键组件和硬件系统，并从单模态到多模态的角度探讨其发展历程。然后，深入探讨具身人工智能的两个新兴领域，即基于LLM 模型/多模态 LLM 模型（MLLM）的具身人工智能和基于世界模型（WM）的具身人工智能，并详细阐述了它们在端到端具身认知和物理定律驱动的具身交互中不可或缺的作用。基于上述进展，进一步分享对 MLLM-WM 联合驱动的具身人工智能架构必要性的见解，阐明了其在物理世界中实现复杂任务的深远意义。此外，还分析具身人工智能的代表性应用，展示其在现实世界场景中的广泛适用性。最后，指出具身人工智能未来值得进一步研究的方向。

请添加图片描述

。。。。。。继续。。。。。。

LLM 助力具身人工智能

LLM 通过语义推理和任务分解赋能具身人工智能，将高级自然语言指令和低级自然语言动作融入具身认知。

1）语义推理：语义推理 [19]、[204]、[205] 利用 LLM 通过分析语言模式 [206]、上下文关系 [207] 和隐性知识 [208] 来解读文本指令中的语义。通过 Transformer 架构 [63]，LLM 将输入 token 映射到潜表示，从而实现跨句法和语用层面的层次化意义抽象。它们采用注意机制来权衡相关的语义线索，同时抑制噪声，促进逻辑推理和类比推理。通过将预训练语料库中的世界知识与特定于任务的提示相结合，LLM 可以动态构建概念图，将文本输入与预期结果对齐。该过程通过概率 token 预测支持多跳推理，通过评估上下文连贯性和语义合理性来解决歧义。

2）任务分解：任务分解 [20], [21] 利用 LLM 的顺序逻辑，通过分层分析上下文依赖关系和目标一致性，将复杂目标分解为子任务。利用思维链提示，LLM 迭代地将指令解析为可操作的步骤，优先考虑相互依赖关系，同时通过语义连贯性检查来解决歧义。

代表性工作包括 SayCan [22]，首先提供一个现实世界中预训练的自然语言动作库，用于约束 LLM 提出可行且符合上下文的动作；然后使用 LLM 将自然语言指令转换为自然语言动作序列；最后使用值函数验证自然语言动作序列在特定物理环境中的可行性。这些研究表明，LLM 对于旨在执行自然语言表达的高级、时间扩展指令的机器人极其有用。然而，LLM 只是整个具身人工智能系统的一部分，受限于固定的自然语言动作库和特定的物理环境，难以在新的机器人和环境中实现自适应扩展。

多模态大语言模型 (MLLM) 助力具身人工智能

MLLM 可以作用于整个具身人工智能系统，并且能够通过将高级多模态输入 [209] 和低级运动动作序列 [210] 桥接成端到端的具身应用（如图所示），很好地解决 LLM 的问题。与 LLM 相比，语义推理 [28]–[30] 利用 MLLM 的跨模态理解能力来解释来自视觉、听觉或触觉输入的语义，例如识别物体、推断空间关系或预测环境动态。同时，任务分解[31]–[33]利用MLLM的顺序逻辑，将复杂目标分解为子任务，并根据传感器反馈动态调整规划。MLLM主要包括视觉-语言模型（VLM）和视觉-语言-动作模型（VLA）。

请添加图片描述

1）面向具身人工智能的视觉-语言模型 (VLM)：面向具身人工智能的视觉-语言模型 (VLM) 整合了视觉和语言指令理解，使物理或虚拟智体能够在目标驱动的任务中感知其环境 [211]–[213]。PaLM-E [14] 等代表性研究首先结合预训练的大语言模型，端到端地训练视觉和语言编码；然后将现实世界连续传感器模态编码的结果整合到 VLM 中，建立词语与感知之间的联系；最后，通过固定动作空间映射实现多任务完成。对于导航，ShapeNet [214] 通过微调对比嵌入进行 3D 空间推理，大大减少路径规划误差。这些研究表明，VLM 可以将具身人工智能中的感知和推理相结合，从而解决大量具有固定动作空间的任务。

2）用于具身人工智能的 VLA：VLA 通过可微分的流程将多模态输入与低级动作控制集成。代表性工作包括 RT-2 [24]，首先按特定时间步长对机器人的当前图像、语言指令和机器人动作进行编码，并将其转换为文本 token；然后使用 LLM 进行语义推理和任务分解；最后，将生成的 token 去 token 化为最终动作。Octo [129] 使用带有语言注释的 10 万个机器人演示进行预训练，实现了跨具身工具的使用。对于灵巧操作，PerAct [215] 利用 3D 体素表示达到毫米级的抓取精度。这些工作表明 VLA 可以作用于整个具身人工智能系统，并在新的机器人和环境中实现自适应扩展。

具身人工智能的 MLLM 分类

MLLM 可以增强具身人工智能的主动感知、具身认知和动态交互。

1）用于主动感知的 MLLM：首先，MLLM 可以增强 3D SLAM。通过将视觉观测数据转化为语义表示，MLLM利用高级上下文信息（例如目标类别、空间关系和场景语义）增强了传统的SLAM流程[216,217]。像SEO-SLAM [218]这样的代表性工作利用 MLLM 为目标生成更具体、更具描述性的标签，同时动态更新多类混淆矩阵以减轻目标检测中的偏差。其次，MLLM可以增强3D场景理解。基于摄像头的感知[30]仍然是MLLM驱动的具身人工智能的主导设置，因为RGB输入与许多基础模型[219–221]的视觉语言预训练自然契合。代表性研究如 EmbodiedGPT [123] 利用这种协同作用，将二维视觉输入映射到与基于语言的目标一致语义丰富的特征中。最后，MLLM 可以增强主动环境探索。MLLM 还彻底改变机器人与环境交互的方式，尤其是在反馈驱动的闭环交互中。代表性研究如 LLM3 [222] 专注于结构化运动级反馈，将碰撞检测等信号纳入规划循环，使模型能够迭代地修改符号动作序列。另一方面，MART [223] 利用交互反馈来提高检索质量。

2）MLLM 用于具身认知：首先，MLLM 可以增强任务驱动的自我规划 [224]–[226]。具有 MLLM 的具身智体可以直接将高级目标映射到结构化动作序列 [31]，也可以采用中间规划策略，不断与环境交互以完善其规划 [32]。代表性的工作如 CoT-VLA [33] 可以预测描述子任务期望结果的中间子目标图像，帮助智体可视化和推理复杂任务的每个步骤。其次，MLLM 可以增强记忆驱动的自我反思。MLLM 允许智体利用这种固有的记忆模块从经验中学习 [129]。代表性的工作如 Reflexion [116] 通过自生成的语言反馈来提高智体的性能，这些反馈存储在 episode 记忆缓冲区中，并用于指导未来的规划。最后，MLLM 可以增强具身多模态基础模型。MLLM 可以通过在具身环境中持续预训练或微调来适应物理世界。代表性工作包括 Qwen-VL [75] 和 InternVL [227]，以及支持更广泛模态对齐的模型，例如 Qwen2.5-Omni [228]。

3）用于动态交互的 MLLM：首先，MLLM 可以增强动作控制。MLLM 能够将复杂任务分解为可操作的子任务 [32]。为了进一步为每个子任务生成连续的控制信号，MLLM 要么以顺序方式自回归生成动作 [127], [229]，要么使用辅助策略头进一步处理其内部表示 [129]。最近的进展还探索使用 MLLM 生成可执行代码 [230]，使机器人能够遵循可解释和自适应的控制策略。其次，MLLM 可以增强行为交互。通过与环境的交互，MLLM 还能够在单个步骤中生成一系列行为动作。 π-0 [31] 等代表性成果将视觉语言主干网络与流匹配解码器相结合，以产生平滑的、时间扩展的行为轨迹。最后，MLLM 可以增强协作决策。其中一条研究方向专注于多智体系统，旨在实现人类级别的协调，并快速适应不可预见的挑战 [231]。例如，Combo [146] 引入了一个新框架，可以增强仅以自我为中心视觉观察方式运作分散智体之间的合作。其他研究则探索人机协作。VLAS [232] 就是一个例证，它通过语音编码器和 LLaVA 风格的 MLLM [233] 将人类口头命令与视觉上下文对齐，从而实现流畅且对话式的人机交互。

世界模型助力具身人工智能

世界模型 (WM) 通过构建外部世界的内部表征和未来预测（如图所示）来赋能具身人工智能，从而促进动态环境中符合物理规律的具身交互。

请添加图片描述

1）外部世界的内部表征：内部表征将丰富的感官输入压缩到结构化的潜空间中，捕捉物体的动态、物理定律和空间结构，使智体能够推理周围环境中“存在什么”以及“事物如何行为”。这些潜在嵌入保留实体和环境之间的层级关系 [234]，反映现实本身的组合性质。这些表征的结构化特性有助于跨环境的泛化，因为抽象的原理（如重力或物体恒存性）超越具体的实例。此外，它们维护目标内在属性[38]和外在关系[39]的解耦变量，支持反事实推理[40]，从而实现对各个组成部分的灵活心理操控。这种解耦还提高学习中的样本效率，因为智体可以在任务之间迁移知识，共享潜因子。具有丰富内部表征的世界模型，可以反省自身对环境状态的不确定性，并主动寻求信息来解决歧义。通过编码时间连续性和空间拓扑[36]，这些模型在规划过程中自然地强制执行一致性约束，在执行之前过滤掉物理上不合理的动作。最终，这种结构化的潜空间充当构建因果理解的认知支架[37]，反映人类如何通过压缩的感官体验发展出关于世界的直觉理论。

2）外部世界的未来预测：未来预测模拟符合物理定律的多个时间范围内序列动作的潜回报，从而预先阻止风险或低效行为[41]，[42]。这种预测能力将短期行动与长期目标[43]联系起来，过滤掉违反物理合理性（例如穿墙）或战略一致性（例如过早耗尽资源）的轨迹。长期预测[44]可以自适应地平衡探索与利用之间的权衡，模拟远期结果以避免局部最优，同时保持对可操作的近期步骤的关注。至关重要的是，这些预测结合不确定性量化[41]，[235]，将可预测的规律（日常模式）与随机事件（突然变化）区分开来，以优化风险意识规划。模拟预测通过用心理演练取代昂贵的反复试验，提高样本效率[39]、[236]–[238]，这在自动驾驶或机器人手术等安全关键领域尤其有价值。此外，持续的预测误差最小化驱动迭代模型的改进[170]、[239]–[241]，从而创建自我修正系统，使其内部的物理模拟器与观察的现实保持一致。这种预测能力最终赋予人工智体类似人类的预见能力，将被动反应转化为有目的的、面向未来优化的行为。

具身人工智能的世界模型分类

基于 WM 的具身人工智能主要可分为三种关键结构：基于循环状态空间模型 (RSSM) 的具身人工智能 WM、基于联合嵌入预测架构 (JEPA) 的具身人工智能 WM 以及基于 Transformer 的具身人工智能 WM。基于层次结构的 WM [242] 和基于扩散的 WM [243] 与其他结构类似，如上图所示。

基于 RSSM 的具身人工智能 WM：RSSM 构成 Dreamer 算法家族 [41]–[44] 的基础架构。该框架通过视觉输入获取时间环境动态，从而增强潜表征的预测能力，随后通过潜轨迹优化实现动作选择。通过将隐藏状态正交分解为概率和确定性成分，该架构明确地解释系统模式和环境不确定性。它在机器人运动控制应用中已证实的有效性激发了众多基于其理论框架的衍生研究。

2）基于JEPA的具身人工智能工作模型（WM）：JEPA [27] 提供一种开发自主机器智能系统的结构。该架构通过表征学习建立输入数据和预期结果之间的映射关系。与传统的生成式方法不同，JEPA 在抽象的潜空间中运行，而不是进行像素级重构，因此优先考虑语义特征提取而不是低级信号合成。JEPA [235] 的一个关键方法论基础涉及自监督训练范式，其中神经网络学习推断被遮挡或未观察的数据段。这种在大量未标记数据集上进行的预训练，使得跨下游应用的迁移学习成为可能，在视觉[244]、[245]和非视觉领域[246]都展现出增强的泛化能力。

3）基于Transformer的WMs用于具身人工智能：Transformer结构[63]起源于自然语言处理研究，其基本原理是依靠注意力机制，通过并行化的上下文加权来处理输入序列。这种设计允许同时计算元素间的依赖关系，从而克服了循环神经网络（RNN）固有的顺序处理约束。经验证据表明，在需要持久记忆保留和外显记忆寻址进行认知推理的领域中，WM 表现出色 [247]，这推动了其自 2020 年以来在强化学习研究中的应用。现有的进展已经成功地使用 Transformer 变型 [38]、[40]、[248] 实现了 WM，在内存密集型交互场景中的表现优于 RSSM 架构 [37]。值得注意的是，谷歌的 Genie 框架 [36] 采用时空 transformer (ST-Transformer) [249]，通过大规模自监督视频预训练创建合成交互环境。这一突破为可操作的世界建模建立了新的范式，揭示了 WM 发展轨迹的变革潜力。

MLLM 和 WM

MLLM 支持上下文任务推理，但忽略了物理约束；而 WM 擅长物理-觉察模拟，但缺乏高级语义。两者的结合将语义智能与扎实的物理交互联系起来。

1）MLLM 在具身人工智能（无 WM）中的局限性：MLLM 在具身人工智能应用中表现出两个关键局限性。首先，它们通常无法在符合物理规律的动力学中扎实预测 [34]，从而导致规划不切实际。例如，在操纵物体时忽略摩擦力或材料特性可能会导致滑移或任务失败。其次，它们对环境反馈的实时适应能力较差，限制了响应速度 [35]。虽然 MLLM 擅长语义任务分解，但它们难以在环境发生剧烈变化时自适应地调整动作。这些局限性源于它们依赖于静态的预训练知识，而不是持续的物理交互。

2）WM 在具身 AI 中的局限性（无 LLM/MLLM）：WM 在抽象推理和泛化方面面临限制。由于 WM 侧重于物理模拟而非上下文理解，因此难以完成开放式语义任务 [45]。此外，如果没有明确的先验知识，WM 缺乏可泛化的任务分解 [26]。例如，在刚体操作上训练的 WM 模型可能无法适应可变形材料，除非进行大量的再训练。它们的预测准确性在很大程度上取决于特定域的交互记录，从而阻碍了其在不同环境中的可扩展性。

3）MLLM 增强 WM 推理能力：通过利用跨模态对齐和语义基础，MLLM 使 WM 能够动态处理复杂环境，从而改进语义推理、任务分解和人机交互。1）MLLM 可以通过将视觉、听觉和文本数据融合成统一的语义表示来丰富 WM。

例如，基于 CLIP 的架构 [250] 使智体能够将视觉场景与语言线索对齐，从而减少目标识别中的歧义 [251]。2）MLLM 可以通过将高级目标分解为可执行的子任务来增强 WM 的任务分解能力。像 GPT-4V [252] 这样的模型使用存储在 WM 中的环境上下文生成分步规划。对于机器人操作，Code-as-Policies [253] 将自然语言指令转换为代码片段，利用 WM 来跟踪中间状态。3）MLLM 使 WM 能够通过人类反馈来完善内部表示。诸如带人类反馈的强化学习 (RLHF) [73] 之类的技术允许智体根据纠正输入更新 WM 先验 [116]。

4）WM 增强 MLLM 交互：WM 可以通过提供物理定律、时空关系和闭环交互体验，在改进 MLLM 方面发挥关键作用。WM 可以缓解 MLLM 在时间连贯性和环境基础方面的固有局限性，从而能够在动态具体任务中做出更稳健的决策。

(1）WM 可以为 MLLM 提供物理定律（例如重力、摩擦力）的明确表示和常识性规则，以约束行动建议。例如，集成 WM 存储的生物力学模型的 Physion++ [254] 可用于过滤违反扭矩限制的 MLLM 生成的机器人运动；RoboGuide [255] 将空间占用图注入 MLLM 规划器，防止导航过程中发生碰撞。
(2）WM 可以通过在多模态处理过程中维护时空上下文来稳定 MLLM 推理。例如，MemPrompt [256] 可以使用 WM 缓冲区将视觉目标轨迹与语言描述对齐，从而解决杂乱环境中的歧义问题；RoboMem [257] 可以利用 WM 优先的注意机制过滤不相关的感官噪声，从而提升基于 MLLM 的场景理解能力。
(3）WM 可以通过闭环交互实现 MLLM 输出的迭代细化。Reflexion [116] 可以将任务执行历史记录存储在 WM 中，从而使 MLLM 能够使用故障模式 [253] 来纠正运动学误差。

联合MLLM-WM驱动的具身AI架构

本文提出一种联合MLLM-WM驱动的具身AI架构（如所示），其工作流程如下，箭头突出显示数据交换过程。

请添加图片描述

机器人 → 自我状态输入 → MLLM/WM → 硬件具身 → 机器人：该流程始于自我状态输入，跟踪本体感受指标，例如自由度、传感器数量等。这些指标输入到WM和MLLM中：WM使用它们构建智体物理状态的内部表征，而MLLM则将这些状态情境化以实现任务协调。硬件具身专注于将WM和MLLM实现到物理设备中，以解决从模拟-到-现实的问题。这种双向流程确保操作既尊重机械限制，又符合高层目标。
MLLM → 任务规划 → WM → 记忆更新 → MLLM：MLLM 将抽象指令分解为子任务。向前的箭头将规划传递给 WM，WM 根据现有的环境模型预测结果。在执行过程中，WM 将结果记录到记忆中。垂直的箭头将这些记录传输到记忆更新模块，这些模块将记忆构建成经验，代表对过去任务记忆的遗忘、对当前任务记忆的更新以及对未来任务记忆的预测。然后，这些信息通过箭头反馈给 MLLM，丰富其知识库。这使得终身学习成为可能，过去的失败可以直接指导未来的规划。
环境 → 主动感知 → MLLM/WM → 动态交互 → 环境：WM 首先通过预测关键的环境变化来驱动主动感知。然后，多模态输入被用于通过 WM 构建外部世界的内部表征，并通过 MLLM 进行语义推理。然后，MLLM 的任务分解和 WM 的未来预测实现了动作选择和环境交互。通过持续迭代，实现了动态环境的自适应感知和交互。

讨论

联合 MLLM-WM 为具身人工智能提供一种极具前景的架构。如表所示，MLLM 在语义推理方面表现出色，能够利用多模态输入实现高级任务分解、情境理解和自适应规划。同时，WM 提供基于物理的扎实环境模拟，确保动作符合现实世界的约束条件。这种协同作用使智体能够平衡抽象推理和实时物理交互，从而增强动态环境中的决策能力。例如，MLLM 可以生成任务规划，而 WM 可以验证可行性，从而实现迭代改进。此外，联合架构支持跨模态泛化，通过连接符号知识和感觉运动经验，提高了在部分可观察或新场景下的鲁棒性。

请添加图片描述

联合 MLLM-WM 驱动的具身 AI 架构面临的挑战包括 1) MLLM 的高延迟语义处理与 WM 的基于物理的表示之间的实时同步，这通常会导致动态环境中的响应延迟；2) 语义-物理错位，其中 MLLM 生成的规划违反了未建模的物理约束；3) 可扩展内存管理，因为对 WM 内部状态的持续更新可能会导致 MLLM 被不相关的上下文压垮。此外，训练此类系统需要涵盖罕见边缘情况的大量多模态数据集，同时确保对传感器噪声和部分可观测性的鲁棒性仍未解决。这些挑战需要轻量级 MLLM 推理、更紧密的反馈循环和动态上下文过滤机制来最大限度地减少延迟。

具身AI 的应用

服务机器人
营救 UAVs
工业机器人
其他：虚拟环境、教育、空间探索等

具身AI 未来方向

自主具身AI
具身AI 硬件
群具身 AI
具身AI 的可解释性和可靠性
其他方向：终身学习、人-在-环学习等

北京朝阳AI社区

更多推荐

【多无人机】面向城市空中交通的多无人机路径规划研究（Matlab代码实现）

受无人机在商业领域应用的影响，多无人机（MultiUAV）路径规划已引发广泛关注。然而，当前的研究往往未能全面考量这一复杂问题中固有的现实约束条件。本报告研究了在城市环境中执行导航任务的智能体的高效路径规划问题。每个智能体均承担配送任务，需先移动至起始点，再前往后续目标位置，同时要绕过障碍物并避免与其他智能体发生碰撞。