AI 小白速收藏！万字长文拆解具身智能：从基础认知到大模型赋能，入门无门槛

冻感糕人~

1018人浏览 · 2025-09-12 11:30:21

冻感糕人~ · 2025-09-12 11:30:21 发布

本文将以“基础概念-技术支撑-核心能力-应用延伸”为逻辑线，先解析具身智能与大模型的基础定义，再深入探讨大模型的通用能力增强技术，随后重点剖析自主决策的两种范式（分层决策、端到端决策）与具身学习的关键方法，最后结合世界模型的应用价值，为读者呈现大模型驱动具身智能的技术全景。

在这里插入图片描述

图1 整体技术框架

本文撰写思路：首先从具身智能的基础概念入手，明确其系统构成（物理实体+智能体）与核心目标；接着分类介绍大模型的技术类型（大语言模型、视觉大模型、多模态大模型等），并详解上下文学习、思维链、RAG等通用能力增强技术；随后聚焦自主决策的两大范式——分层决策（拆解为感知、高层规划、低层执行、反馈优化）与端到端决策（基于VLA模型的“输入-动作”直接映射），深入分析技术细节与应用场景；再阐述具身学习的核心方法（模仿学习、强化学习等）及大模型如何提升学习效率；最后介绍世界模型在决策与学习中的支撑作用，总结技术趋势与未来方向。

一、具身智能的基础概念与系统逻辑

具身智能（Embodied AI） 并非单纯的“智能算法+物理硬件”组合，而是一套能够与物理世界深度交互的闭环系统——它通过物理实体感知环境信息、通过智能体处理信息并生成决策、通过执行器落地动作，同时将动作结果作为反馈重新输入系统，形成“感知-决策-动作-反馈”的闭环，最终实现任务目标。这种系统逻辑与人类的行为模式高度相似：人类通过眼睛（视觉）、耳朵（听觉）感知世界，通过大脑（认知系统）思考决策，通过手脚（执行器官）完成动作，再通过感官反馈调整行为。

1.1 具身智能的系统构成

具身智能系统主要由物理实体与智能体两部分组成，二者协同工作，共同实现与物理世界的交互：

物理实体：是具身智能与物理世界交互的“硬件接口”，包括感知模块、执行模块与载体结构。

感知模块：如摄像头（视觉）、麦克风（听觉）、力传感器（触觉）、激光雷达（环境测距），负责采集环境中的多模态信息，将物理信号转化为数字信号；
执行模块：如机械臂（抓取动作）、轮式/足式底盘（移动）、舵机（关节转动），负责将智能体生成的决策指令转化为物理动作；
载体结构：如人形机器人的躯干、四足机器人的机身、智能车辆的底盘，为感知与执行模块提供支撑，同时适应特定应用场景（如人形机器人适配家庭环境，四足机器人适配复杂地形）。

智能体：是具身智能的“认知核心”，负责处理感知信息、理解任务目标、生成决策策略，并根据反馈优化行为。智能体的核心能力包括：

任务理解：解读人类的语言指令（如“帮我拿桌上的水杯”），明确任务目标与约束条件（如“水杯不能打翻”）；
环境建模：将感知模块采集的多模态信息（图像、声音、触觉数据）整合为结构化的环境模型，识别物体位置、场景类型（如“客厅”“厨房”）与潜在风险（如“地面有水”）；
决策规划：基于任务目标与环境模型，生成分步执行的动作序列（如“先移动到桌子旁→伸出机械臂→调整抓取角度→拿起水杯”）；
反馈优化：根据动作执行结果（如“是否成功拿起水杯”“是否碰到其他物品”），调整决策策略，避免重复错误。

在这里插入图片描述

图2 具身智能的“感知-决策-动作-反馈”闭环

1.2 具身智能的核心能力：模仿人类的行为逻辑

具身智能的设计灵感源于人类的行为模式，其核心能力的实现逻辑与人类的学习、决策过程高度一致，可分为“学习阶段”与“执行阶段”：

（1）学习阶段：从“数据”到“技能”的积累

人类的学习过程依赖外部资源（如书籍、老师指导、实践经验），具身智能的学习同样需要“数据输入”：

示范数据：通过人类演示任务（如人类操控机器人拿起水杯），让智能体学习“动作与目标的对应关系”；
视频数据：从海量公开视频（如烹饪视频、装配视频）中提取动作序列，扩展智能体的技能库；
交互数据：智能体在模拟环境或真实环境中自主尝试动作，记录“动作-结果”对应关系，形成经验数据。

通过这些数据，智能体借助模仿学习、强化学习等算法，将“数据”转化为可复用的“技能”（如“抓取不同形状物体的策略”“在狭窄空间移动的方法”）。

（2）执行阶段：从“目标”到“动作”的落地

当面临具体任务时，人类会先评估环境、规划步骤、模拟策略，再执行动作并根据反馈调整；具身智能的执行过程也遵循这一逻辑：

环境评估：通过感知模块识别环境中的关键信息（如物体位置、障碍物分布、场景约束）；
任务分解：将复杂任务拆解为简单子任务（如“打扫房间”拆解为“整理物品→扫地→拖地”）；
策略生成：为每个子任务生成具体的动作序列（如“整理物品”拆解为“移动到物品旁→拿起物品→放到指定位置”）；
动作执行：通过执行模块落地动作，同时实时采集反馈信息（如“是否成功拿起物品”“是否碰撞障碍物”）；
优化调整：根据反馈修正策略（如“若未拿起物品，调整机械臂抓取角度”）。

1.3 具身智能的核心挑战：自主决策与持续学习

具身智能要实现“通用化”，核心在于解决两大问题：自主决策与持续学习。

自主决策：指智能体在无人类干预的情况下，根据环境变化与任务目标，动态生成合理的动作策略。目前主流的实现方式有两种：
1. 分层决策范式：将决策过程拆解为“感知→高层规划→低层执行”三个独立模块，每个模块专注于单一功能（如感知模块负责识别物体，高层规划模块负责生成子任务序列，低层执行模块负责控制机械臂动作），模块间通过标准化接口传递信息，优势是可解释性强、便于调试，劣势是模块间可能存在“信息断层”（如高层规划生成的子任务与低层执行能力不匹配）；
2. 端到端决策范式：将“感知-规划-执行”整合为一个统一模型（如视觉-语言-动作模型VLA），直接将多模态输入（图像+语言指令）映射为动作输出，优势是减少模块间的信息损耗、响应速度快，劣势是模型“黑盒化”、可解释性差。
持续学习：指智能体在长期使用过程中，能够通过与环境的交互不断优化技能，适应新任务与新场景（如机器人从“拿水杯”扩展到“拿碗”“拿盘子”）。持续学习的关键在于解决“灾难性遗忘”（学习新技能时忘记旧技能）与“知识迁移”（将旧技能的经验应用到新任务），而大模型的预训练-微调机制为这一问题提供了解决方案——通过在海量数据上预训练获得通用知识，再通过少量新任务数据微调，实现技能的快速扩展。

此外，世界模型在具身智能的决策与学习中扮演着重要角色——它是智能体内部构建的“虚拟环境模拟器”，能够基于历史感知数据预测未来环境状态（如“若推动桌子，桌子会向哪个方向移动”）。通过世界模型，智能体可以在“虚拟环境”中提前模拟动作结果，避免在真实环境中尝试错误动作（如碰撞障碍物），从而减少物理损耗、提升学习效率。

二、大模型：具身智能的“认知引擎”

大模型是具身智能实现“高级认知能力”的核心支撑——通过大模型的语义理解、多模态融合、逻辑推理能力，具身智能的“感知”从“看见”升级为“理解”，“决策”从“机械执行”升级为“灵活规划”，“学习”从“单一任务”升级为“跨域迁移”。目前，支撑具身智能的大模型主要分为五大类：大语言模型（LLM）、视觉大模型（LVM）、视觉-语言大模型（LVLM）、多模态大模型（MLM）、视觉-语言-动作模型（VLA），每类模型都有其独特的技术特性与应用场景。

在这里插入图片描述

2.1 大语言模型（LLM）：具身智能的“语言理解与逻辑大脑”

大语言模型以文本数据为训练基础，通过Transformer架构学习语言的语义规则与世界知识，能够理解人类语言指令、生成逻辑连贯的文本，并具备一定的推理能力，是具身智能与人类交互、进行高层规划的核心工具。

技术里程碑：
1. 2018年，谷歌发布BERT[1]，首次将双向Transformer用于语言预训练，通过“掩码语言模型”（MLM）任务让模型学习上下文语义，显著提升了文本理解任务（如情感分析、文本分类）的性能，为后续LLM的发展奠定了基础；
2. 2019年起，OpenAI陆续发布GPT系列模型[2]（GPT-1至GPT-4），采用“自回归生成”架构，在海量无标注文本上预训练，实现了从“文本理解”到“文本生成”的突破——GPT模型不仅能理解人类指令，还能生成连贯的任务规划（如“如何整理书桌”的步骤），成为具身智能高层规划的核心组件。
在具身智能中的作用：
- 任务理解：将人类的自然语言指令（如“帮我把客厅的书放到书架上”）转化为结构化的任务目标（如“目标物体：书；起始位置：客厅；目标位置：书架”）；
- 高层规划：根据任务目标与环境信息，生成分步执行的子任务序列（如“1. 移动到客厅沙发旁；2. 识别并拿起书；3. 移动到书架旁；4. 将书放入书架”）；
- 逻辑推理：解决任务中的不确定性问题（如“若书架满了，如何调整书籍摆放顺序”）。

2.2 视觉大模型（LVM）：具身智能的“眼睛与视觉理解”

视觉大模型以图像数据为训练基础，专注于解决图像理解任务（如物体识别、图像分割、姿态估计），能够将具身智能的“视觉感知”从“像素级”升级为“语义级”——不仅能“看到”物体，还能识别物体类别、位置、形状，是具身智能与物理环境交互的基础。

核心技术与模型：
1. ViT（Vision Transformer）[3]：2020年由谷歌提出，首次将Transformer架构应用于计算机视觉领域——将图像分割为固定大小的“图像块”（Patch），通过自注意力机制捕捉图像全局语义信息，打破了传统CNN（卷积神经网络）的局部感知限制，显著提升了图像分类、目标检测的性能；
2. DINO与DINOv2[4][5]：Meta（原Facebook）提出的自监督视觉模型，通过“学生-教师网络”架构，在无标注图像上预训练——学生网络学习图像特征，教师网络通过对比学习引导学生网络优化，最终生成高质量的图像表示，可用于物体检索、图像分割等任务；DINOv2在DINO的基础上扩大了训练数据规模，进一步提升了特征表示的通用性；
3. MAE（Masked Autoencoder）[6]：谷歌提出的自监督视觉预训练方法，借鉴BERT的“掩码”思想——随机掩码图像中的部分块，让模型通过剩余块重构完整图像，从而学习图像的结构与语义信息，预训练模型可快速适配下游视觉任务（如目标检测、图像分割）；
4. SAM与SAM2[7][8]：Meta提出的“任意分割模型”，在1100万张图像上预训练，支持对任意物体（无论是已知类别还是未知类别）进行分割——用户只需通过点、框等简单交互，即可让模型分割出目标物体，在具身智能的“物体抓取”任务中应用广泛（如分割出“水杯”的轮廓，辅助机械臂定位抓取点）。
在具身智能中的作用：
- 物体识别：识别环境中的物体类别（如“水杯”“椅子”“桌子”）；
- 场景理解：判断当前场景类型（如“客厅”“厨房”“卧室”），识别障碍物与可交互区域；
- 物体分割：精确分割目标物体的轮廓，为机械臂抓取、移动机器人避障提供位置信息。

2.3 视觉-语言大模型（LVLM）：打通“视觉”与“语言”的壁垒

LVLM 将预训练的视觉编码器与视觉-语言融合模块集成在一起，允许处理视觉输入并通过语言提示响应与视觉相关的查询。

CLIP[9] 通过在大规模图像-文本对上进行对比学习训练图像和文本编码器，对齐成对的样本特征，同时最小化不成对的样本，以创建与文本语义匹配的视觉表示。

BLIP[10] 采用双向自监督学习来融合视觉和语言数据，使用“引导”策略提高预训练效率，并在视觉问答和图像字幕生成任务中提升性能。BLIP-2[11] 进一步引入了QFormer结构，从冻结的图像编码器提取视觉特征，并通过多模态预训练与语言指令对齐，以实现高效的跨模态融合。

Flamingo[12] 在少样本学习中表现出色，处理极少样本的多模态数据以支持数据稀缺场景下的跨模态推理。

GPT-4V[13] 扩展了传统GPT，以处理联合的图像-文本输入，生成图像描述，并以强大的多模态推理能力回答视觉问题。

DeepSeek-V3[14] 通过采用动态稀疏激活架构，进一步扩大了多模态推理的边界。它引入了一种混合路由机制，结合了特定任务的专家和动态参数分配，实现了跨模态融合任务的高计算效率。

2.4 多模态大模型

MLM 能够处理多种模态，包括文本、视觉、音频等。根据输入输出范式，MLM可以被归类为多模态输入文本输出模型和多模态输入多模态输出模型。

（1）多模态输入文本输出模型： 整合了多样的数据模态，以实现全面的内容理解。

Video-Chat[15] 通过对话建模增强了视频分析能力，擅长动态视觉内容理解。

VideoLLaMA[16] 在Llama架构的基础上，结合了视觉和音频输入，以实现强大的视频内容分析。

谷歌的多模态Gemini[17]，专为多模态设计，高效处理文本、图像和音频，用于图像描述和多模态问答。

PaLM-E[18]将多模态输入转换为统一向量，并将它们输入到PaLM模型中进行端到端训练，实现了强大的多模态理解。

（2）多模态输入多模态输出模型： 通过学习复杂的数据分布生成多样的数据类型，如文本、图像和视频。

DALL·E[19] 通过结合向量量化变分自编码器（VQ-VAE）和拥有12亿参数的Transformer扩展GPT-3，生成了创意性、与提示对齐的图像，支持零样本任务。

DALL·E2[20] 通过整合CLIP来增强DALL·E，采用两阶段过程：首先生成低分辨率图像，然后进行超分辨率增强，极大提升了图像质量和多样性。

DALL·E3[21] 通过提升文本编码器和训练数据质量，进一步完善了图像与提示的对齐。

2024年，OpenAI发布了Sora[22]，一个视频生成模型，能够根据文本提示创建长达60秒的高质量连贯视频。Sora使用编码网络将输入转换为离散标记，利用大规模扩散模型优化序列，并将去噪后的标记投影回视频空间。

2.5 视觉语言动作模型

VLA 模型近期获得了巨大关注，核心目标是通过直接将多模态输入映射到动作输出，而不是通过层次决策的中间步骤，从而提高机器人的感知-动作整合能力。

VLA（视觉-语言-动作）的概念最初由 RT-2 提出，该方法利用预训练的视觉-语言模型将动作空间离散化为动作标记，并通过联合微调互联网数据和机器人数据实现泛化。

然而，其离散的动作设计和闭源性质限制了它的灵活性和进一步研究的可能性。

为了克服这些限制，出现了基于连续动作生成的VLA模型和开源VLA模型。 最近关于VLA模型的研究进一步解决了这些挑战。BYO-VLA[23]、3D-VLA[24]、PointVLA[25]处理视觉输入。Octo[26]和Diffusion-VLA[27] 提高了动作生成的准确性。TinyVLA[28] 和 π0[29] 提升了计算效率。

2.6 大模型的通用能力提升

大模型在推理能力、幻觉、计算成本和特定任务方面仍然存在限制。 本部分介绍一系列技术来提升它们的通用能力，如图4所示。

在这里插入图片描述

图4 大模型的通用能力增强

上下文学习（ICL[30]） 使大模型能够通过精心设计的提示实现零样本泛化，让它们能够在不需要额外训练和调整的情况下应对新任务。利用输入提示中的上下文，大模型能够理解任务要求并生成相关输出，使其成为从自然语言处理到特定任务问题解决的多功能工具。最近的进展集中在优化提示技术，如自动化提示生成和动态示例选择，以提高跨领域ICL的鲁棒性。

XoT 是一个推理框架家族，旨在提高大模型解决数学、逻辑和开放式问题的能力。思维链（CoT[31]）将中间推理步骤整合到提示中，指导大模型将复杂问题分解为可管理的部分。思维树（ToT[32]）通过探索树状结构中的多个推理路径来扩展CoT，允许大型模型评估替代解决方案并在必要时回溯。思维图（GoT[33]）通过采用一种图结构进一步推进了ToT，其中节点表示中间状态，边捕获关系和依赖关系，实现了灵活的非线性推理。

检索增强生成（RAG[34]） 从外部知识库（如数据库和网络资源）检索相关信息，并将其输入到大型模型中以获得准确响应。RAG缓解了大模型知识过时或不完整的问题，确保能够访问最新和特定领域的信息。最近的进展包括混合检索机制，结合密集和稀疏检索方法以平衡精确性和效率，以及微调策略，有效地将检索到的内容与生成输出对齐。

推理与行动（ReAct[35]） 将推理与执行动作结合起来，在执行任务期间能够产生明确的推理轨迹。ReAct 要求大型模型在行动之前明确其思维过程，增强了决策透明度，并在动态互动环境中提高了性能。

基于人类反馈的强化学习（RLHF[36]） 将人类偏好整合到大型模型的训练中，使大型模型与人类价值观和意图保持一致。通过使用人类反馈作为奖励信号，RLHF 提高了模型在动态互动环境中生成有用、无害和诚实输出的能力。通过提示模型生成多个响应，基于人类反馈的强化学习（RLHF）允许人类根据质量和安全性对其进行排名或评级，并使用此反馈来完善模型未来的生成，确保连贯性和伦理考量。

模型上下文协议（MCP[37]），为大型模型提供了一个标准化接口，用于与外部数据源、工具和服务进行交互。MCP增强了大型模型的互操作性和适应性，使其能够与多样化的外部系统无缝集成。MCP的最新发展集中在扩展其与多模态输入的兼容性，并优化其在实时应用中的性能。

2.7 具身大模型

大模型通过增强智能体的能力来赋能具身智能。具身大模型（ELM），也称为具身多模态大模型（EMLM），通过无缝集成包括文本、视觉、音频和触觉在内的多种模态，能够赋予代理构建复杂环境中感知、推理和行动的复杂系统的能力，在自主决策和具身学习方面发挥着至关重要的作用。

不同的大模型赋予具身智能体不同的能力。大语言模型通常充当认知骨干，处理自然语言输入，把握上下文细微差别，并生成可操作的响应。

大语言模型（LVM） 通常用于感知任务中，或在任务执行期间作为可调用的API使用，利用预训练的视觉编码器来预测物体类别、姿态和几何形状。

通过将大语言模型（LLM） 与多种模态数据集成，视觉语言模型（LVLM）和多模态大模型（MLM） 可以进一步增强智能代理的能力，使智能体能够跨文本、视觉和音频理解人类指令，生成上下文相关的响应或动作。

在复杂导航和操作任务方面的最新进展突显了MLM的优势。 与前几个分别处理不同功能的模型不同，视觉语言模型（VLA） 学习从视觉和语言输入到可执行动作的端到端映射。

这一简化流程使智能体能够解释复杂指令，感知动态环境，并执行精确的物理动作，从而产生更健壮、更多功能性的具身人工智能系统。除了增强规划智能外，还越来越多地探索其生成能力，以推进具身学习并协助构建世界模型，进一步支持通向AGI的道路。

三、分层自主决策

智能体的自主决策旨在将环境感知和任务理解转化为可执行的决策和物理动作。

传统决策采用分层范式，包括感知与互动、高层规划、低层执行以及反馈与增强。感知与互动层依赖于视觉模型，高层规划层依赖于预定义的逻辑规则，而低层执行层则依赖于经典控制算法。

这些方法在结构化环境中表现出色，但由于有限的整体优化和高层决策，在非结构化或动态环境中难以实现。

在这里插入图片描述

图5 分层决策范式，由感知和互动、高层规划、低层执行、反馈和增强组成

大模型在鲁棒学习、推理和泛化能力方面的进步，在复杂任务处理中展现了希望。通过整合大型模型的推理能力与物理实体的执行能力，它为自主决策提供了新的范式。如图5所示，环境感知首先解释智能体周围的环境，LLM赋能的高层规划随后考虑感知信息和任务指令将复杂任务分解为子任务，LLM赋能的低层执行随后将子任务转化为精确的物理动作，最后LLM赋能的反馈增强引入闭环反馈以提高智能水平。

3.1 高层规划

在这里插入图片描述

图6 高级规划

高层规划的目标是根据任务指令和感知信息制定合理的计划。传统方法依赖于基于规则的规划，但在非结构化或动态环境中适应性较差。大模型通过其零样本和少样本泛化能力，显著提升了高层规划的灵活性和适应性。具体方法包括：

3.1.1 利用大语言模型进行结构化语言规划

使用LLM作为规划器：使用大语言模型（LLM）生成计划，但容易因严格的语法和语义要求产生逻辑错误。为了缓解这一问题，引入验证器。通过外部验证器（如 PDDL 解析器或环境模拟器）检查和迭代改进 LLM 生成的计划。
生成 PDDL（规划领域定义语言）：利用 LLM 自动生成 PDDL 领域文件和问题描述，减少手动建模工作。

3.1.2 利用大语言模型进行自然语言规划

自然语言表达：利用自然语言的灵活性将复杂任务分解为子任务，但容易生成不可行的计划。
结合强化学习：通过将 LLM 生成的计划与预定义的技能库和价值函数结合，评估动作的可行性。
动态解码：动态结合 LLM 输出与实时接地模型，评估行动的可行性，生成上下文可行的计划。

3.1.3 利用 LLM 进行编程语言规划

代码生成：将任务规划转换为代码生成，生成可执行的程序，增强适应性。
多模态基础模型：结合多模态基础模型进行感知、规划和控制，提高规划精度。
结构化提示：使用结构化提示指导 LLM 生成定制化的基于代码的计划，减少无效代码生成。

3.2 低级执行

在这里插入图片描述

图7 低级规划

低级执行是将高层规划生成的子任务转化为具体的物理动作，是具身智能体执行任务的关键环节。低级执行涉及控制理论、机器学习和机器人工程，从传统的控制算法发展到学习驱动的控制，再到模块化控制，以适应复杂多变的环境。具体方法包括：

3.2.1 传统控制算法

比例-积分-微分（PID）控制：通过调整参数最小化机器人关节控制的误差，适用于简单的控制任务。
状态反馈控制：结合线性二次型调节器（LQR）优化性能，适用于需要精确控制的场景。
模型预测控制（MPC）：通过滚动优化预测状态并生成控制序列，适用于路径跟踪等任务。

3.2.2 采用大语言模型的学习驱动控制

模仿学习：通过专家示范训练策略，快速制定初始策略，减少探索时间。
强化学习：通过试错优化策略，适用于高维动态环境，但需要大量数据和计算资源。
混合方法：结合模仿学习和强化学习，先用模仿学习初始化策略，再用强化学习进行精炼，提高策略的鲁棒性和适应性。

3.2.3 结合大语言模型和预训练模型的模块化控制

模块化设计：将大语言模型与预训练的策略模型（如 CLIP、SAM）结合，动态调用这些模块以完成任务。
多模态融合：利用多模态基础模型进行感知、规划和控制，提高执行的准确性和适应性。
轻量级模型：通过知识蒸馏等技术将大型模型压缩，提高推理效率，适用于资源受限的边缘设备。

3.3 反馈与提升

在这里插入图片描述

图8 反馈与提升

反馈与提升是具身智能决策过程中的关键环节，旨在通过闭环反馈机制优化智能体的决策和执行能力。反馈可以来自大模型自身、人类或环境，通过这些反馈，智能体能够动态调整策略，提高任务执行的准确性和效率。具体方法包括：

3.3.1 大模型的自我反思

大模型可以作为任务规划者、评估者和优化者，从而在外部干预的情况下迭代改进决策过程。智能体会获得行动反馈，自主检测和分析执行失败的情况，并从过往任务中持续学习。通过这种自我反思和优化机制，大模型能够生成稳健的策略，在长序列规划、多模态任务和实时场景中提供优势。自我反思可以通过两种方式实现，如图8(a)所示。

重新提示（Re-Prompting）：通过检测执行失败或前提条件错误，将错误上下文作为反馈，动态调整提示，纠正大语言模型生成的计划。
内省机制：大语言模型能够独立评估和完善其输出，通过多个自我反馈循环迭代改进计划的合理性。自我完善（Self-Refine）：使用单一的大语言模型进行规划和优化，通过自我反馈循环提高计划的可行性。反思（Reflection）：结合长期记忆存储评估结果，并通过多种反馈机制提高计划的可行性。迭代自优化：在基于PDDL的规划中应用迭代自优化，生成初始计划后进行合理性检查，并通过自我反馈完善结果。

3.3.2 人类反馈

人类反馈通过与人类建立互动闭环机制，如图8(b)所示，提高了规划的准确性和效率。这种方法使智能体能够根据人类反馈动态调整行为。

不确定性测量：通过引入不确定性测量框架，使大语言模型能够识别知识空白，并在高风险或不确定情景下寻求人类协助。
规划-执行-反馈循环：当低级控制失败时，智能体请求人类输入，结合强化学习和自我监督优化，动态调整规划策略。
实时纠正：允许用户通过命令指导暂停机器人，进行实时基于语言的纠正，反馈被记录用于策略微调和定期查询，实现实时和长期改进。
互动问答：通过与人类进行互动问答获取特定任务知识，从而发出精确的机器人指令。

3.3.3 环境反馈

环境反馈通过与环境的动态互动来增强基于大语言模型（LLM）的规划，如图8©所示。

多模态反馈：将多模态输入转换为用于“内心独白”推理的语言描述，使大语言模型能够根据环境反馈调整计划。
动态适应：通过与环境的动态互动，增强基于大语言模型的规划，实时纠正动作轨迹。
多智能体交互：在多智能体环境中，利用环境反馈和智能体间通信实时纠正机器人臂路径规划。

四、端到端自主决策

分层范式依赖于独立的任务规划、动作执行和反馈模块，因此存在错误累积的问题，并且在跨多样任务泛化时表现不佳。

此外，从大模型中提取的高级语义知识难以直接应用于机器人动作执行，导致整合上的缺口。

为了缓解这些挑战，端到端自主决策近期引起了广泛关注，它直接将多模态输入（即视觉观测和语言指令）映射到动作。这通常由VLA实现，如图9所示。

在这里插入图片描述

图9 VLA的端到端决策

4.1 视觉-语言-动作模型

VLA模型通过将感知、语言理解、规划、动作执行和反馈优化集成到一个统一的框架中，代表了具身智能的一个突破。

VLA模型利用大模型的丰富先验知识，能够在动态、开放的环境中实现精确且适应性强的任务执行。

一个典型的VLA模型包括三个关键组成部分：分词和表征、多模态信息融合以及动作去标记化，如图10所示。

在这里插入图片描述

图10 视觉语言动作模型

4.2 对VLA的改进

VLA（视觉-语言-动作）模型是端到端决策的核心，通过将感知、语言理解和动作生成集成到一个统一框架中，显著提升了具身智能代理的任务执行能力。

然而，VLA模型在复杂任务中仍面临挑战，如对输入扰动的敏感性、3D空间关系理解不足、动作生成精度有限以及训练成本高昂等。

在这里插入图片描述

图11 视觉语言动作模型的改进

对VLA模型的改进主要集中在提高感知能力、优化轨迹动作生成和降低训练成本三个方面。

通过运行时观测干预和3D感知技术，显著提升了模型对复杂环境的感知能力。扩散模型的引入优化了动作生成的精度和平滑性，而高效的采样方法和模型压缩技术则降低了训练和部署的成本。

这些改进方法的结合，使VLA模型在复杂任务中的表现更加稳健，适用于多样化的应用场景，为具身智能代理的端到端决策提供了更强大的支持。

4.3 分层式决策和端到端决策

分层式决策和端到端决策是实现具身智能自主决策的两种主要范式。 它们在设计哲学、实施策略、性能特点和应用领域上存在显著差异。本部分对这两种决策范式进行了详细比较，概述了它们在架构、性能、可解释性、泛化能力等方面的关键区别。

分层式决策

分层式决策将复杂的决策过程分解为多个模块，每个模块负责处理感知、规划、执行和反馈的具体方面。

其核心思想是将复杂任务分解为可管理的子任务，以提高调试性、优化和维护性。分层式决策的主要特点包括：

架构：感知模块（如SLAM、CLIP）、高层规划模块（如PDDL规划器）、低层执行模块（如预定义的技能列表）和反馈模块（如LLM自我反思、人类反馈、环境反馈）。
性能：在结构化任务中表现可靠，但在动态复杂环境中可能因模块协调不当而出现次优解。
可解释性：高，模块化设计清晰，易于理解和调试。
泛化能力：有限，依赖于人类设计的结构，对未见过的场景和任务适应性较差。
实时性：低，模块间通信可能在复杂场景中引入延迟。
计算成本：适中，独立模块优化但存在协调开销。
应用领域：适用于工业自动化、无人机导航、自动驾驶等结构化任务。

端到端决策

端到端决策采用一个大型神经网络（如VLA模型），直接将多模态输入映射到动作，而不进行模块化分解。

其核心思想是通过大规模数据集训练，实现感知、规划和执行的无缝集成。端到端决策的主要特点包括：

架构：感知、规划和执行功能集成在一个统一的框架中，通常基于VLA模型。
性能：在复杂、开放的任务中表现优越，具有强大的泛化能力。
可解释性：低，由于神经网络的黑盒特性，决策过程难以分析。
泛化能力：强，通过大规模预训练实现对非结构化环境的适应。
实时性：高，直接的感知到动作映射减少了处理开销。
计算成本：高，训练需要大量计算资源。
应用领域：适用于家庭机器人、虚拟助手、人机协作等复杂任务。

五、具身学习

具身学习旨在使智能体在与环境互动的过程中获得复杂技能并提升其能力。 通过不断学习和优化技能，智能体能够实现精确决策和实时适应。这种能力可以通过多种学习策略的协调来实现，如图12所示。

在这里插入图片描述

图12 具身学习：过程和方法

本部分详细介绍了具身学习的主要方法，包括模仿学习、强化学习、迁移学习和元学习，并探讨大模型如何增强这些方法在具身智能中的应用。

5.1 具身学习方法

具身学习的目标是使智能体能够在整个生命周期中不断学习新任务，适应环境变化。

具身学习可以建模为一个目标条件部分可观测的马尔可夫决策过程，涉及状态、动作、目标、状态转移概率、奖励函数、观测值和折扣因子等元素。

主要学习方法包括：

模仿学习（Imitation Learning）：通过模仿专家的示范来快速获取初始策略，适用于有高质量数据的任务，但对多样化的演示数据依赖性强，适应新场景的能力有限。
强化学习（Reinforcement Learning）：通过试错与环境互动来优化策略，适合动态和不确定的环境，但需要大量样本和计算资源，且设计合适的奖励函数具有挑战性。
迁移学习（Transfer Learning）：通过在相关任务之间转移知识来加速学习，提高泛化能力，但存在负迁移的风险，即当任务差异显著时可能导致性能下降。
元学习（Meta-Learning）：使智能体学会如何学习，以便在最少数据的情况下快速适应新任务，但需要在多样化的任务中进行大量预训练，建立通用元策略具有挑战性。

5.2 大模型赋能的模仿学习

模仿学习通过模仿专家的示范来快速获取初始策略，但传统方法存在对多样化演示数据依赖性强、适应新场景能力有限等问题。大模型的出现显著提升了模仿学习的效果，主要方法包括：

基于扩散的策略网络：利用扩散模型生成多样的动作轨迹，增强策略的鲁棒性和表现力。例如，Pearce 提出的基于扩散模型的框架通过迭代去噪和加噪优化专家示范，DABC 通过行为克隆预训练基础策略网络并用扩散模型完善动作分布。
基于 Transformer 的策略网络：利用 Transformer 的自注意力机制捕捉动作、状态和目标之间的依赖关系，减少中间步骤的误差累积，提高策略的一致性和准确性。例如，RT-1 通过大规模数据集和预训练的视觉-语言模型显著提升了任务泛化能力，ALOHA 利用 Transformer 的编解码结构从多视图图像生成机械臂动作序列。

5.3 大模型赋能的强化学习

在这里插入图片描述

强化学习通过与环境的互动来优化策略，但传统方法在构建策略网络和设计奖励函数方面存在限制。大模型的出现为强化学习带来了新的机遇，主要方法包括：

奖励函数设计：利用大模型生成奖励信号或奖励函数，减少对手动设计的依赖，捕捉复杂的多模态反馈。例如，L2R 和 Text2Reward 利用 GPT-3 从文本行为提示中生成奖励信号，Eureka 利用 GPT-4 从任务和环境提示中创建密集奖励。
策略网络构建：

使用扩散模型：通过迭代去噪和加噪模拟复杂的动作分布，增强策略的表达能力。例如，DiffusionQL 使用扩散模型作为基础策略，通过 Q 学习框架训练以最大化价值函数目标。
使用基于 Transformer 的架构：利用 Transformer 的自注意力机制捕捉轨迹中的长期依赖性，提高策略的灵活性和准确性。例如，决策 Transformer 将强化学习重新表述为条件序列建模问题，通过监督学习从离线数据集中生成最优动作。
使用大语言模型（LLM）：利用 LLM 的预训练知识简化离线强化学习任务，提高策略的表达性和适应性。例如，GLAM 使用 LLM 作为策略代理，通过 PPO 在线优化生成可执行的动作序列，LaMo 利用 GPT-2 作为基础策略并进行微调以保留先验知识。

六、世界模型

世界模型是具身智能系统中用于模拟和预测环境动态的关键组件，它为智能体提供了一个内部的环境表示，使其能够在没有实际与环境互动的情况下进行规划和决策。

世界模型在决策和具身学习中起着至关重要的作用，通过预测未来状态和结果，智能体可以更有效地学习和适应复杂环境。

本节详细介绍了世界模型的设计方法及其在决策和具身学习中的应用，探讨了不同类型的模型及其特点。

6.1 世界模型的设计

潜在空间世界模型：

RSSM：通过像素观测学习动态环境模型，考虑环境的确定性和随机因素。
PlaNet、Dreamer、Dreamer V2、Dreamer V3：逐步改进 RSSM，通过潜在表示学习行为，提高稳定性和性能。

基于 Transformer 的世界模型：

IRIS、Genie、TWM、STORM：利用 Transformer 的自注意力机制捕捉长期依赖性，提高预测准确性和训练效率。

基于扩散的世界模型：

Sora、UniPi、UniSim：通过扩散模型生成高质量的轨迹数据，增强学习过程和适应性。

联合嵌入预测架构：

JEPA：通过分层规划和自监督学习，提供高效的决策框架。

6.2 决策中的世界模型

模拟验证：

Nebula、UniSim：通过模拟验证优化决策，减少与真实环境的互动。

知识增强：

WKM、Agent-Pro、GovSim：通过提供先验知识和动态知识，增强智能体的规划能力。

6.3 在具身学习中的世界模型

状态转换的世界模型：

RobotDreamPolicy、DayDreamer、SWIM：通过状态转换和微调，提高学习效率和适应性。

世界模型用于数据生成：

SynthER、MTDiff、VPDD：通过生成高质量的轨迹数据，增强学习过程和减少数据需求。

写在最后

“大模型与物理世界的深度融合正将具身智能推向新的发展高峰，使其成为探索通用人工智能（AGI）最具潜力的路径之一。”

随着技术的不断进步，我们有理由相信，未来的机器人将不再是简单的工具，而是能够真正理解世界、与人类协作的智能伙伴。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】