25年9月来自俄国斯科尔科沃科学技术学院 (Skoltech) 的论文“PhysicalAgent: Towards General Cognitive Robotics with Foundation World Models”。

PhysicalAgent,是一个用于机器人操作的智体框架,它集成迭代推理、基于扩散的视频生成和闭环执行。给定文本指令,该方法会生成候选轨迹的简短视频演示,在机器人上执行这些轨迹,并针对故障以迭代方式重规划。这种方法能够实现从执行错误中稳健地恢复。在多种感知模态(自我中心、第三人称和模拟)和机器人具身(双手 UR3、Unitree G1 人形机器人、模拟 GR1)上评估 PhysicalAgent,并与最先进的特定任务基线进行比较。实验表明,该方法始终优于先前的方法,在人类熟悉的任务中成功率高达 83%。物理试验表明,首次尝试的成功率有限(20-30%),但迭代校正可将跨平台的总体成功率提高到 80%。这些结果凸显基于视频的生成推理在通用机器人操控方面的潜力,并强调迭代执行对于从初始故障中恢复的重要性。


基础模型的快速发展彻底改变了人工智能智体的设计。与单纯的提示系统不同,现代智体 [1]–[3] 通过提前推理、分解复杂问题以及通过工具迭代执行来展现自主性。这种转变背后的核心因素是对通用基础模型的依赖,这些模型减少了对特定任务训练的依赖,能够在新版发布时实现模型的无缝更新,并充分利用共享基础设施的规模经济效益。这种范式催生虚拟领域中灵活且高性能的智体。

然而,将这种智体能力扩展到物理世界面临着独特的挑战。机器人系统必须将推理建立在感知的基础上,跨异构实体运行,并在动态环境中可靠地执行。现有的认知机器人方法,例如 RT-1/RT-2 [4]、[5]、OpenVLA [6] 和 Isaac-Gr00t [7],都依赖于视觉-语言-动作 (VLA) 模型,这些模型需要针对特定​​任务和平台进行微调。虽然这些方法在训练分布上效果显著,但在迁移到新的机器人、环境或任务时仍然显得脆弱。同样,近期基于世界模型(WM)的动作合成研究 [8] 也展现出了令人信服的闭环执行能力,但其依赖于专门的模型(例如 Cosmos Predict [9]),这些模型是在设计的机器人-场景对上进行训练的,这限制了其通用性。

机器人控制的主导范式一直是强化学习 (RL) 和模仿学习 (IL)。虽然 RL 可以发现新的策略,但它通常样本效率低下,难以应对复杂的长周期任务。模仿学习(IL),包括行为克隆等方法,更为直接,但需要针对单个机器人实例的大量专家演示数据集,从而限制了可扩展性。

近期研究探索了生成模型来克服这些限制。例如,扩散策略通过逆扩散过程来学习生成动作轨迹,在复杂的操作任务中显示出良好的效果 [28], [29]。这种范式正在快速发展,近期研究探索了离散扩散用于动作解码,以便更好地与基于 token 的 VLM 接口保持一致 [30]。其他方法则侧重于从多样化的被动数据源(例如人类视频)中学习,其中多模态 Transformer 在一般操作任务中表现出色 [31],但在弥合人类与机器人之间的形态差距方面仍然面临挑战。

本文的 PhysicalAgent,是一个基于基础世界模型的认知机器人通用框架。PhysicalAgent 的设计遵循“感知 → 规划 → 推理 → 行动”的流程,其中前两个流程利用无需针对特定机器人进行训练的基础模型,只需训练执行者部分。如图所示:

请添加图片描述

PhysicalAgent 为动作合成引入一种中间表示:生成的视频。将文本-到-视频的扩散模型视为一个通用的、与具体化无关的世界模型 [32], [33]。系统并非直接输出机器人扭矩或末端执行器姿势,而是生成所需子任务的物理上可信的视频。这种方法利用视频模型从海量网络规模数据中学习的丰富且隐式物理和物体交互理解。最后一步——通过轻量级的姿势-到-动作适配器将视频映射到运动指令——变成一个更简单的监督学习问题,每个具身只需要极少的数据收集。这一理念与文献[34]的研究相一致,其利用在多个具身中收集的庞大且多样化的机器人数据集来调整大型预训练模型。这种独特的问题分解使 PhysicalAgent 能够继承“视频生成”域的快速发展,同时保持在各种物理硬件上部署的清晰高效路径。


视频生成领域 [35] 发展迅速,已成为一个高度活跃的研究领域。最先进的模型基于海量多模态数据进行预训练,包括大规模视频语料库和各种活动的第一人称记录。因此,这些模型能够对基本的物理过程以及与世界的日常互动获得深入的理解。此外,视频生成模型越来越多地通过基于 API 的接口进行访问,这使得快速构建流程原型、无缝集成新发布的模型以及持续改进输出质量成为可能,而无需本地训练或托管。这种可扩展性、可访问性和泛化性的结合使得视频生成模型在机器人应用中尤为具有吸引力。

此外,视频生成模型经过训练,能够将文本提示与相应的视觉输出对齐。这种机制与人类推理行为的方式相似:先概念化指令,然后在脑海中模拟其执行过程。至关重要的是,这些模型可以将这种推理能力扩展到机器人智体,使其能够想象如何执行特定动作,而无需任何关于机器人内部架构的先验知识。基于文本的指令恰好位于这些模型的训练分布范围内,因此为指定机器人行为提供了自然有效的界面。

最后,为了将生成的视频输出应用于机器人控制,只需一个将视觉表征映射到机器人状态的轻量级模型。构建这样的数据集并训练这种映射比从头开始训练强化学习策略要简单得多。训练过程更加稳定,所需数据更少,并且可以由现有的计算机视觉基础模型[36]、[37](例如基于YOLO的架构)有效支持。

重要的是,该架构支持跨具身泛化:相同的感知-推理流程可以为完全不同的机器人形态生成可行的任务部署,而无需重新训练或微调。如图展示在三个不同具身中执行的多种操作任务示例部署,以展示此功能:双手 UR3 设置、Unitree G1 人形机器人和模拟双臂智体。这表明该方法为推理和行动规划提供一个统一的基础,并且该基础在异构机器人平台上仍然有效。

请添加图片描述


执行机器人任务的关键一步是理解目标并将其落地于感知。在 PhysicalAgent 中,这通过反复使用由视觉-语言模型 (VLM) 驱动的视觉推理来实现。与特定任务的感知模块不同,基础 VLM 提供通用的场景理解,使其特别适用于异构机器人和多样化任务。

a) 任务理解与分解:在接收到自然语言目标并感知初始场景后,智体会立即执行视觉推理,将高级指令转化为结构化的规划。此过程涉及将任务分解为一系列原子子任务或技能(例如,“抓取物体”、“稳定容器”、“插入槽位”)。这些原子技能充当抽象规划和具体执行之间的接口。
b) 上下文场景描述:对于每个子任务,智体必须生成详细且具有约束意识的提示,并将其传递给动作生成模块。这不仅需要识别相关目标及其空间关系,还需要捕捉物理约束和机器人特有的可供性。视觉-语言模型 (VLM) 用于将此上下文信息以文本描述的形式呈现,从而调节基于扩散的世界模型,使其能够合成可行的动作轨迹。
c) 执行监控与纠正:每个执行步骤后都会再次调用视觉推理来评估进度并纠正错误。给定原始任务和一对图像(执行前后),VLM 会评估子任务是否成功完成,并推荐以下三种结果之一:(i) 继续执行规划,(ii) 重试当前操作,或 (iii) 返回高级规划。这种闭环推理确保长期任务的稳健性。
d) 基础模型的作用:因此,视觉推理充当了 PhysicalAgent 流程的认知支柱,使机器人能够解读目标,将其应用于环境,并动态地适应执行结果。重要的是,该设计与模型无关:任何能够进行多图像推理的现代 VLM 都可以使用。在实现中,主要使用 Gemini Pro Flash [23],但其他模型,例如 GPT-4o [24]、Claude-3.5 Sonnet [26] 或 QwenVL [27] 也同样适用。


框架的核心是一个基于扩散的基础世界模型,它将“动作生成”重新概念化为“条件视频合成”,而非直接的策略学习。该设计利用大规模图像-到-视频的基础模型,当以单个首帧和一段简短的文本描述为条件时,这些模型可以生成物理上合理的短展开(rollouts),捕捉物体动态、接触事件和场景级因果结构。重要的是,先前的研究(例如 DreamGen [8])展示了世界模型驱动动作合成的前景,但依赖于专门的预测模型(例如 Cosmos Predict [9]),这些模型是在挑选的机器人-场景对上训练的,这限制其分布外(OOD)的泛化能力,并增加了部署的工程负担。相比之下,现成的基础图像→视频模型(最初是为通用图像或文本条件视频合成而训练的)可以作为具身智体的实用且有效的扩散世界模型。

具体来说,该流程使用基础图像转视频生成器,根据机器人当前的摄像头观测结果以及指令或规划,合成候选部署方案。这些合成视频可作为下游模块的中间模态,可供人类和机器解读:(i) 轻量级视频-转-控制适配器,利用板载传感器和闭环反馈将可视化轨迹映射到可执行的运动指令;(ii) 验证器模块,在执行前评估可行性和安全性。通过将动态先验知识卸载到生成模型,特定于机器人的组件被精简为一个小型适配器,所需的任务或平台特定数据量大大减少。

这种设计带来三个实际优势。首先,由于成本高昂的先验知识(生成模型)与任务和具身无关,因此在部署到新机器人和新环境时,它显著降低数据和工程负担。其次,它允许快速升级:当更优秀的图像-转-视频基础模型可用时,无需重新训练适配器即可替换。第三,合成的展开(rollouts)提供了一个可检查的层,用于监控和人机交互校正,从而提高了透明度和安全性。

现代图像-转-视频系统已经支持首帧 + 描述条件——例如Seedance 1.0 Pro [38]、Google Veo 2 [39]、Luma Ray2 [40]和 Wan 2.2 [41]——并且可以通过商业 API 或轻量级开源版本访问。在实验中,用 Wan 2.2 Image-to-Video Fast模型,因为它在速度/质量方面具有良好的平衡,但适配器的架构和训练使得该方法与模型无关:随着改进的出现,任何兼容的图像-转-视频基础模型都可以被替换。

通过将机器人控制建立在扩散驱动的视频生成之上,PhysicalAgent 建立一种可扩展的、与具身无关的动作合成和验证机制——从而缩小基础模型推理与稳健的物理执行之间的差距。


如图所示展示了具身技能执行的总体流程。该图展示从合成子任务视频到 YOLO11-Pose 关键点提取、特征计算、回归到运动指令,最终实现机器人真实执行的流程。该示例演示一个具有第三人称视角的双手机械手。

请添加图片描述

在 PhysicalAgent 流程的前几个阶段,根据单个初始帧和自然语言描述生成子任务执行的短视频,以确保生成的轨迹可执行且视觉上正确。最后一个阶段——将这些合成视频映射到真实的机器人动作——是该流程中唯一需要进行平台特定适配的部分。

这项任务分解为两个主要部分。首先,用轻量级的姿势检测模型(经过微调的 YOLO11-Pose [37])估计合成视频每一帧中机器人关键关节的二维位置。对于双手机械手,追踪 14 个关键点(每个机械臂 6 个关节 + 1 个夹持器),产生了 28 个坐标特征。为了增强表征能力,计算关节间连杆长度(12 个特征),最终每帧生成一个 40 维的特征向量。由于遮挡或检测失败而缺失的关键点,则使用简单的均值策略 (SimpleImputer) 进行插补。

其次,将这些特征输入回归模型,以预测相应的低级运动指令。用 MultiOutputRegressor 包装 HistGradientBoostingRegressor,并设置以下超参:最大迭代次数 max_iter = 500,学习率 learning_rate = 0.1,最小样本的叶 min_samples_leaf = 20,提前停止 early_stopping = True。此过程可生成准确的运动指令,大多数关节的平均绝对误差低于 0.1;运动范围较宽的关节(例如 J7)的误差较大。

该适配器的训练数据集包含约 10,000 个样本,以每分钟 5 个样本的速度在约 30 分钟内收集。每个样本包含与感知输入相对应的摄像机帧、机器人的当前关节位置以及从摄像机内参和逆运动学得出的投影二维关键点。这种轻量级方法无需微调大模型,同时支持在消费级硬件上进行板载推理。该流程兼容第三人称和自我中心摄像机视图。

使用微调的 YOLO11-Pose 模型 [37] 进行姿势估计,该模型经过预训练并训练 150 个 epoch,批量大小为 8,图像大小为 1280,耐心(patience)值为 50 的提前停止算法。优化器参数包括 lr0 = 0.01、momentum = 0.937、weight decay = 0.0005 和 3 个 epoch 的预热。训练使用了 RTX 4090 上的 4 个 Worker,并冻结了主干网络的前 10 层以保留预训练表征(freeze = 10)。数据增强操作极少,以保持几何一致性,并对遮挡的关节应用掩码。验证在保留帧上进行,以确保在不同摄像机视角下实现关键点的精确定位。

该流程可以轻松适配新的机器人平台。只有位姿回归组件需要使用在目标机器人上收集的小型数据集进行重新训练。适配器的架构保持不变,使其轻量级、训练速度快,并兼容不同的运动结构。该方法已成功应用于人形机器人和双手机械手,

实验 1: 感知和具身

实验设置:使用三个平台:双手 UR3 机器人、Unitree G1 人形机器人和模拟 GR1 人形机器人。评估 13 个操作任务:盒子、球、按钮、盘子、抽屉、冰箱、交接、笔记本电脑、绳子、灰尘、托盘、简易交接和烤箱。对于每个任务-平台对,生成并执行 30 个视频;成功率以二进制评分。

实验 2:迭代物理任务执行

实验设置:
• 平台:两个物理机器人——(i) 双手 UR3 设置,以及 (ii) Unitree G1 人形机器人。
• 任务:一组固定的 10 个操作任务(两个平台上的任务相同)。
• 程序:对于每个任务,遵循标准化程序:(1) 根据文本指令生成规划 + 视频;(2) 在机器人上执行;(3) 评估结果;(4) 如果失败且可恢复,则重新制定规划。如果成功、发生不可恢复的故障(例如,将物体掉落在机器人够不着的地方)或尝试 10 次后终止。
• 重复:每个平台的 10 个任务每个都运行一次,总共进行 20 次实验。

Logo

更多推荐