导读

近年来,多模态大模型不断进入具身智能领域,但要让机器人真正“看懂环境并行动”,仍面临两大关键挑战。其一是几何适配性缺口:现有方法若仅依赖二维输入,就难以掌握真实三维空间的关系;而直接硬塞入三维特征,又会牺牲二维任务的表现,导致模型难以在多类任务间自由切换。其二是具身约束缺口:不少模型在推理时忽略了机器人本身的物理约束,给出的操作路径在理论上可行,却无法在真实世界中执行。

这篇来自华为诺亚方舟实验室的工作提出了 OmniEVA,一个兼顾“会想”和“能做”的具身通用智能体。它通过 任务自适应的三维 Grounding 机制,让模型在需要时引入三维几何知识,而在不需要时保持轻量;同时结合 具身感知推理框架,把任务目标和机器人自身的物理条件纳入同一推理回路,从而输出既符合任务要求、又能在真实环境落地的计划。

▲图1|OmniEVA一镜到底实物Demo:接咖啡

OmniEVA 的设计初衷,是针对具身智能中最常见的两大困境:几何适配性缺口具身约束缺口。前者让模型在二维和三维任务之间徘徊,无法兼顾视觉语义和空间理解;后者则让推理结果脱离现实,机器人明明规划出了“合理”的方案,却因超出机械臂的工作空间或忽视物体遮挡而根本无法执行。研究团队认为,想要让大模型真正落地到机器人身上,必须同时解决“何时需要三维?”与“执行是否真的可行?”这两个核心问题。

为此,论文提出了 OmniEVA 框架:一方面,它通过 任务自适应三维 Grounding(TAGR)机制,在需要空间推理时动态注入三维位置先验,而在仅依赖视觉语义时则保持轻量,从而避免冗余计算与性能牺牲;另一方面,它引入 具身感知推理,在规划过程中显式考虑任务目标与机器人本体的物理约束,确保推理出的计划既聪明又可执行。

接下来,本解读将依次展开:首先深入解析 OmniEVA 的方法设计,看看 TAGR 如何决定“要不要加三维”,以及具身感知推理如何将物理限制融入决策;随后总结实验结果与图表发现,观察它在问答、描述、指令执行等任务上的表现;最后结合全文思考这项工作的贡献与潜在应用价值

2|OmniEVA 的模型结构。左图展示了 OmniEVA 的整体架构,其核心在于一种新颖的任务自适应门控路由器,能够动态引入三维位置嵌入。中图展示了门控路由器模块的具体实现方式。右图给出了该门控路由器在不同任务中激活状态的示例

任务自适应三维 Grounding(TAGR)

模块作用与位置

 TAGR 是整套框架里连接“任务需求”和“场景空间复杂度”的动态路由器,用来有选择地注入三维位置信息(3D positional encoding)。它不把 3D 信息“一刀切”地加到所有任务上,而是按需打开或关闭。

Patch 级三维位置编码(Patch-Level 3D PE)

 先用相机参数把每一帧深度图投影到世界坐标系,得到每个像素对应的三维坐标。

 与视觉编码器的图像 patch 划分对齐:把三维坐标也按同样的 patch 网格切分。

 对每个 patch 内的三维坐标求平均,得到“patch 级”的三维位置。

 再将这些三维位置转换为与视觉 token 维度一致的向量,作为patch 级三维位置编码

 对多帧输入重复上述流程,最终得到与图像特征对齐、可与视觉流融合的 3D 位置特征。

基于门控的动态 3D 注入(Gated Routing)

 TAGR 的决策来自两类条件

 任务条件:把指令文本编码成一个任务向量,用来表达“这次任务到底需不需要三维推理”;

 场景条件:把视觉特征在空间和时间上做全局聚合,得到一个“场景复杂度”的描述。

 将任务向量与场景向量拼接后,送入一个轻量的感知-决策模块,输出一个二元门控信号

 :在视觉流里注入显式三维空间线索;

 :只用二维视觉信息,不额外引入 3D。

 这个门控可以理解成一种**专家混合(MoE)**的开关:

 “纯视觉专家”:仅用原始视觉 token;

 “融合专家”:用“视觉 token + 3D 位置编码”的混合表示。

 最终输出的混合视觉表示与文本 token 一起送入大语言模型,生成响应。

预训练

 TAGR 先在“带深度感知”的数据上做预训练,目标是把输出对齐到标注答案。

 为了让门控稳定且可解释,训练时加入一个对门控分布的正则(以均衡先验为参照),防止门长期偏向某一状态。

 预训练完成后,TAGR 参数被冻结,后续训练阶段不再改动

专为具身任务设计的训练框架 (Embodiment-Aware Training Strategy)

为把“感知—推理—执行”统一到多样的具身任务里,论文提出了一个两阶训练范式:先打好“具身推理”底座,再通过“任务 & 具身约束”的强化微调,让模型学会生成可执行的计划。

3|OmniEVA 的训练范式。该方法采用两阶段级联方式逐步提升具身智能:第一阶段侧重构建广泛的推理基础,第二阶段将其落实到物理现实中,最终实现跨越多种真实场景的稳健任务执行

全监督的具身推理微调

阶段目标

先建立一个稳健的“推理骨干”,让模型具备跨模态、跨时空的理解与推理能力。数据构成(两部分)

1. 通用具身推理数据

a. 覆盖 2D 图像、视频序列、3D 环境等多模态输入;

b. 任务包含空间关系指代、时间推理、视觉定位、场景描述、想象式补全等;

c. 目的:强化时空推理与多模态理解的综合能力。

2. 自建具身任务数据

a. 在现有基准(如 Where2Place、PACO-LVIS)之外,拓展到导航、操作、复合任务

b. 重点考查:可供性预测、抓取可行性、主动探索等;

c. 每个任务都带链式思考(CoT)标注,包括任务分解与决策理由,作为“热启动”,帮助模型内化结构化规划策略,为下一阶段的“具身优化”打好基础

4训练数据集的构成

任务和部署感知强化微调

很多方法只追求“语义对不对”,忽略了“能不能执行”。TE-GRPO 的目标,是让模型输出既任务对齐、又物理可行的计划。

奖励构成(在原有“思考—回答”的格式奖励之外,新增两类关键反馈)

 任务一致性奖励:评估回答是否满足任务语义要求,不涉及物理约束;例如指点任务里,指向是否落在目标区域内。

 具身可行性奖励:评估计划在机器人约束下能否执行;例如是否满足运动学与可达性、是否被环境阻挡等(在模拟器内验证)。

二者分别对应两种优化目标:

 前者更贴近离线评测的语义表现;

 后者直指真实执行的成功率。

渐进式具身课程(Curriculum)

 训练中采用从易到难的调度:

 早期更关注“语义正确”;

 随着训练推进,逐步提高“具身可行”的权重;

 促使模型从“会说对”过渡到“会做对”,加速收敛并让策略更贴近现实约束。

优化细节(概念化说明)

 采用带截断更新分布约束的策略优化范式(类似具有剪切项与 KL 正则的稳定更新),避免策略一步跳太大导致训练不稳;

 每轮会对同一提示生成多份候选,按综合优势更新策略;

 通过这套“任务+具身”的强化微调流水线,模型从“感知理解”逐步进化到“物理落地执行”,在多样真实场景中形成更可靠的规划与表现

评测设置与研究问题

本章围绕三件事评估方法有效性:

1. 动态三维 Grounding 是否增强多模态推理?机制如何起作用?

2. 具身感知推理是否在需要真实执行的任务上提高成功率?如何适配物理约束?

3. 能否通过组合原子能力,完成长时序任务?

具身推理基准(2D / 3D)

 2D 输入的具身推理基准(四个):Where2Place、VSI-bench、PACO-LVIS、RoboRefit。覆盖静态图像与动态视频,考查空间/时间理解与多模态推理。

 原子能力到下游任务的桥接评测(四个)

 Where2Go:从多视角中选择下一最佳视角,在部分可观测环境里定位目标(贴近大空间目标搜寻)。

 Where2Fit:在桌面上预测可放置的二维点集合,需考虑位置、尺寸、碰撞等约束(对应 Mobile Placement-Easy)。

 Where2Approach:识别不被椅子遮挡的可接近桌面空位,兼顾遮挡、底盘/机械臂约束(对应 Mobile Placement-Hard)。

 Where2Grasp:按颜色、大小、位置、类别识别目标,强调以物体为中心的识别(对应 Mobile Pickup)。

  注:采用 VQA 风格显著降低评测成本;更详细示例在附录C。3D 输入的具身推理基准(四个):SQA3D、ScanQA、Scan2Cap、ScanRefer,覆盖3D问答、场景描述与3D视觉定位,检验模型在富几何结构场景中的推理能力。

模拟器中的端到端评测

在一个 3000m² 办公环境上构建三类逐级难度评测(8类核心场景、95个常见物品类别):

 Large-Space Object Seeking:即目标导航,评估在大空间中定位给定目标的能力。

 Local Mobile Manipulation:30+ 场景,底盘位姿多样、物体类型/大小/位置多样。

 Mobile Pickup:在多样桌面/场景中抓取目标。

 Mobile Placement:分 Easy/Hard:

 Easy:只需根据桌面占用情况确定放置点(同 Where2Fit 设置)。

 Hard:需先确定底盘最优位姿,同时受桌面物品与周围椅子等环境约束(同 Where2Approach 设置)。

  评估包含导航至目标位姿、规划安全放置轨迹与完成率。End-to-End Delivery:在整层办公室中完成端到端物品递送;指标为整体成功率平均完成时长

动态三维 Grounding:跨多模态基准的验证

对比基线

 硬编码 3D:所有任务一律注入3D特征(常见于既有3D LLM路线)。

 无 3D:完全视作传统2D MLLM。

结果要点(图5

 方法在 4 个任务中有 3 个领先,平均提升 1.22%;说明“按需注入三维”优于“始终/从不注入三维”,能在需要空间推理时发挥作用,而在不需要时避免额外负担。

TAGR 何时被激活?(词触发与案例)

 词触发统计(图6:几何属性词(如 shape/square/rectangular)与空间动词(throwing/go/away)激活概率高;计数或泛化询问(many/nine)激活低——语言信号在一定程度上显式提示是否需要3D推理。

5对于TAGR模块的消融实验

6单词激活分析不同提示类型的激活概率

 定性案例(图8

 案例一:问“桌子形状”为何,若出现“正方形/长方形”的歧义,3D门控激活概率更高(如 0.73);

 案例二:圆桌场景,二维线索足够时,激活概率较低(如 0.52);

 右侧两例为计数/颜色识别时门控不激活,体现 TAGR 能在不需要3D时自动省略。

与 SOTA 模型在 2D/3D 基准上的对比(图7

7对比实验定量结果

 2D 四基准:在仅 8B 参数规模下,OmniEVA 全部达成 SOTA平均 +10.45 超过上一代 SOTA(Robobrain-32B),并显著优于更大规模的 GPT-4o、Gemini-2.5-Pro 等。

 3D 四基准:在 SQA3D / ScanQA / Scan2Cap 上分别领先(+2.3 / +0.3 / +8.5);

 在 ScanRefer3D grounding)上总体略逊,但在纯文本 I/O的同等设置下达到 55.8,显著超过此前最佳 44.4(Spatial-3D-LLM),显示了端到端推理的稳健性与泛化能力。

 导航下游(HM3D / MP3D,表4):预测 3D 子目标引导探索,SR/SPL 均超越 UniNavid,其中 SPL +5.4

8训练数据集的构成

具身感知推理:从语义正确到可执行

训练设置

比较是否使用 r_task任务一致性)与 r_embod(具身可行性)两类信号进行训练(即 TE-GRPO 与其删减变体)。

原子能力与下游任务上的量化结果(图9

 原子能力

 Where2Approach+28.95%

 Where2Fit+34.28%

 下游任务

 Mobile Placement:Easy +43%,Hard +50%

 拆分贡献:r_task 与 r_embod 单独都有增益,但联合优化效果最好,呈现协同提升

9|TE-GRPO方法在局部移动操作任务中的消融结果

边界观察(抓取相关)

 低层抓取策略存在瓶颈时,r_embod 的作用会被掣肘:

 Where2Grasp 基准提升 +26.59%,但 Mobile Pickup 只有 +18.7%(靠 r_task),而仅靠 r_embod无显著增益

 这表明:即使具身可行性信号到位,底层控制策略的泛化能力仍是最终能否成功执行的关键约束。

对具身约束的适配过程(图10

 推理轨迹:先做任务级分析(场景理解、常识性空间分析、文本定位可放置区域),再引入物理约束(可达性、工作空间边界)过滤候选,输出满足任务且可执行的放置区域。

 对比:未用 TE-GRPO 的模型也能识别桌面空位(任务层面可行),但常给出超出机械臂范围执行效率较差的位置;使用 TE-GRPO 的 OmniEVA 则更稳定地选择可达、可执行的区域。

10|OmniEVA在实施例感知约束下的推理过程

长时序任务的组合与编排

 在模拟器的 End-to-End Delivery 上验证:要求跨整层办公室完成端到端递送,评估整体成功率平均完成时长

 通过将 Where2Go / Where2Approach / Where2Fit / Where2Grasp 等原子能力按需组合与排序,模型展现出面向真实流程的长时序执行能力(具体场景设计与分类见附录D)。

OmniEVA 把“会想”和“能做”拧到了一起:用 任务自适应的三维 Grounding(TAGR),在确实需要空间/遮挡/几何推理时才按需注入 3D 位置信息;用 具身感知的强化微调(TE-GRPO),把任务目标与机器人可达性、工作空间等物理约束写进训练与推理回路。结果上,它在多项 2D/3D 具身推理基准上取得领先(8B 规模对齐甚至超越更大模型),在模拟器与真实平台上把“语义正确”进一步落实为“可执行的动作”,Mobile Placement/Approach/Go 等原子—复合任务链条也得到验证。

更重要的是,论文坦诚给出了边界:当底层抓取策略泛化不足时,具身约束奖励的收益会被削弱。这为下一步的落地路线给出清晰指向——补齐低层技能的稳健性与泛化,继续打通从视觉语言理解到可执行控制的闭环。面向实际应用,OmniEVA 的按需 3D 与具身约束范式,为“长时序、多约束、端到端”的机器人任务提供了一条可复制的工程路径。你觉得把这套思路接到你的平台上,最先要补的短板会是哪一环:数据、算力,还是低层策略

参考文献:

Embodied Versatile PlAnner via Task-Adaptive3D-Grounded and Embodiment-aware Reasoninghttps://omnieva.github.io/

Logo

更多推荐