全球自动驾驶技术正经历一场前所未有的路线之争。VLA模型凭借强大推理能力崭露头角,世界模型则以物理规律理解见长,而真正的答案可能既不是“A”也不是“B”。

在2025世界机器人大会上,宇树科技创始人王兴兴直言:“目前机器人行业对数据关注太多,对模型关注太少,现在最大的问题其实是模型问题,当前的机器人模型架构不够好不够统一”。这番话在自动驾驶领域同样振聋发聩。

随着高德地图VLA模型在nuScenes数据集上以0.19米的L2平均误差距离夺得全球第一,而世界模型代表Genie3又能以720p分辨率保持数分钟的一致性,这两种技术路径的竞争已进入白热化阶段。

01 什么是VLA与世界模型

VLA(视觉-语言-行动模型)是一种端到端的多模态人工智能系统,它通过视觉感知、语言理解和行动执行三个模块的整合,直接将传感器输入映射为控制输出。

世界模型则采取了不同的路径,它试图让AI学会理解物理世界的运行规律,通过预测未来状态来指导当前行动。其核心是让AI在内部模拟环境中进行“思想实验”,预测不同行动可能带来的后果。

举一个通俗的例子

假设一辆自动驾驶汽车正在接近一个红绿灯路口:

VLA模型的处理方式是这样的:摄像头看到红色信号灯,语言模块理解“红灯停”的交通规则,然后直接输出刹车动作。它基于大量数据学习到的关联性做出决策——因为在训练数据中,红灯场景总是与刹车动作配对出现。

世界模型的处理方式则截然不同:它不仅识别出红灯,还会预测如果继续前进可能与横向车辆发生碰撞,如果刹车则能安全停在停止线前。它通过内部模拟选择了最安全的策略。

02 两种路线的核心区别

VLA和世界模型代表了人工智能通向自动驾驶的两种不同哲学。

VLA是数据驱动的关联学习者,它依赖于大规模标注数据,学习输入与输出之间的统计关联性。世界模型是模型驱动的因果推理者,它试图理解世界运行的内在机制和物理规律。比如刚刚的红绿灯例子,VLA学到了“看到红灯就要刹车”的关联,但未必像人类一样真正理解“红灯意味着交叉方向的通行权,强行通过会导致碰撞”这个因果链和物理后果。

从技术架构看,VLA通常是“感知-推理-行动”的端到端映射,而世界模型则是“观测-预测-规划-执行”的闭环流程。

03 各自的优缺点分析

VLA模型的优势与局限

优势:
  • 自然交互:直接理解自然语言指令,降低人机交互门槛
  • 快速迭代:增加数据就能提升性能,开发流程相对简单

局限:

  • 数据依赖性强:需要大量高质量标注数据
  • 可解释性差:决策过程类似黑箱,难以追溯和验证
  • 物理理解不足:缺乏对因果关系的深度理解,可能产生违反物理规律的行为

世界模型的优势与局限

优势:
  • 样本效率高:通过在虚拟仿真中无限试错,减少对真实数据的依赖
  • 规划能力强:能够通过预测多种未来路径并进行搜索,找到最优决策
  • 可解释性较好:决策过程基于对未来状态的预测,更容易理解模型“思考”过程
局限:
  • 预测精度挑战:在复杂视觉环境中精确预测未来帧极具挑战性
  • 计算成本高:实时模拟物理世界需要巨大算力支持
  • 发展不成熟:世界模型的研究仍处于早期阶段,性能与VLA相比仍有差距

04 发展现状与经典论文

VLA发展现状与最新成果

当前VLA模型在自动驾驶领域进展迅猛。高德地图的AutoDrive-R²模型在nuScenes数据集上取得了L2平均误差距离仅0.19米的成绩,展现了强大性能。

理想的MindVLA、慕尼黑工业大学的OpenDriveVLA等模型都在不断推进VLA技术的边界。

一篇值得关注的VLA论文是Physical Intelligence的π0.5模型。该模型在机器人控制领域展示了VLA在灵巧操作、多机器人协作和环境泛化方面的强大潜力。

论文标题:π0.5: a Vision-Language-Action Model with Open-World Generalization
论文链接:https://arxiv.org/pdf/2504.16054

π-0.5主要模型结构

π-0.5 是一个视觉-语言-动作(Vision-Language-Action, VLA)模型,它建立在先前的 π-0 模型之上。其结构设计旨在让机器人能够走出实验室,在真实、全新的环境中完成复杂的任务。

其结构特点可以概括为 “一个统一模型,两个推理层级,两个训练阶段”

  • 统一的 Transformer 架构:模型的核心是一个 Transformer,能够处理包括图像、语言指令和机器人动作在内的多模态输入,并生成相应的输出。无论是高层级的任务规划还是底层的具体动作,都由这一个模型来完成。

  • 两阶段推理过程 (Hierarchical Inference):在执行任务时,模型会先进行高层级的推理,即根据用户下达的笼统指令(如“打扫厨房”)和当前的视觉观察,生成一个具体的、语义化的子任务(如“拿起盘子”)。接着,模型会基于这个子任务,进行低层级的推理,预测出机器人需要执行的具体、连续的动作序列。

  • 两阶段训练流程 (Two-Stage Training)

    1. 预训练阶段:在这一阶段,模型会学习来自极其广泛和异构的数据源的知识。为了训练的效率和规模,所有的动作都被表示为离散的“词元”(tokens)。
    2. 后训练(微调)阶段:在这一阶段,模型会针对移动操作任务进行专门的微调。它会引入一个“动作专家”(action expert)模块,并使用一种叫做“流匹配”(flow matching)的技术来生成更精细、更适合实时控制的连续动作。
π-0.5创新点

π-0.5 模型的最大创新在于其实现了强大的“开放世界泛化能力”,使其能够在从未见过的家庭环境中执行长达10-15分钟的复杂多阶段任务,例如打扫厨房或整理卧室。 这一突破主要得益于以下几个关键创新点:

  1. 异构数据的协同训练 (Co-training on Heterogeneous Data):这是该模型最核心的创新。 它不仅仅依赖于目标机器人自身收集的数据,而是从多种来源迁移和融合知识,包括:

    • 不同机器人的数据:整合了来自其他非移动机器人或在实验室环境下收集的数据。
    • 网络多模态数据:大量使用来自网页的图文数据(如图片描述、视觉问答)来增强模型对世界物体和场景的语义理解。
    • 高层级语义预测:训练模型根据观察来预测高级的子任务指令,这让模型学会了任务拆解。
    • 人类语言指令:模型还从人类专家通过语言一步步指导机器人完成复杂任务的数据中学习。
  2. 统一模型下的分层推理:与以往需要一个独立模型进行任务规划、另一个模型执行动作的方法不同,π-0.5 在同一个模型内部完成了从高层语义理解到低层动作生成的全过程。这种设计使得高层级的规划能够更好地利用场景的语义信息,而低层级的执行又能精准地服务于规划好的子任务。

  3. 混合式动作表示:模型巧妙地结合了离散和连续动作表示的优点。在预训练时使用离散的动作词元,可以高效地从海量数据中学习;而在部署时切换到连续的动作表示,可以实现对机器人平滑、精准的实时控制。

简而言之,π-0.5 模型通过一个创新的、吸收了海量异构数据进行协同训练的框架,构建了一个能够像人一样进行“思考”(规划子任务)和“行动”(执行具体动作)的统一智能体,从而在机器人泛化能力上取得了显著的突破。

世界模型发展现状与最新成果

世界模型的研究同样在不断突破。谷歌DeepMind推出的世界模型可以生成前所未有的多样化交互式环境,给出文本提示,Genie 3可以生成动态世界,可以以每秒24帧的速度实时导航,并以720p的分辨率保持几分钟的一致性。

Genie 3是第一个允许实时交互的世界模型,同时与Genie 2相比,其一致性和真实感也得到了提升。它不仅能模拟世界的物理特性,如水流、光影变化以及复杂的环境互动,还能模拟自然世界、动画和小说建模,甚至探索不同地域与历史场景。
Genie 3链接:https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/(该链接要 vpn才能打开)

05 一点浅见:技术路线的当下与未来

虽然目前VLA在自动驾驶领域的实验成果和商业应用更胜一筹,但我认为世界模型的长期潜力更加值得期待。

就像王兴兴在世界机器人大会上所说:“目前机器人行业对数据关注太多,对模型关注太少,现在最大的问题其实是模型问题”。这一观点精准地指出了当前技术发展的瓶颈所在。

现阶段大多数自动驾驶公司选择VLA路线是可以理解的,因为VLA技术相对成熟,开发路径清晰,能够通过增加数据量来获得相对线性的性能提升。在商业竞争压力下,选择这条“看得见结果”的路径是务实之举。

然而,世界模型相较于VLA,其突破性在于它试图从根本上解决AI对物理世界的理解问题。世界模型让AI不再仅仅学习数据的统计规律,而是真正掌握因果推理能力,这为应对自动驾驶中无限可能的长尾场景提供了根本性解决方案。

从长远来看,VLA和世界模型的融合确实是最有可能的演进路径。VLA可以作为优秀的感知和交互接口,而世界模型则承担核心的推理和规划职责,两者形成互补。

我相信,我们很快就能看到机器人的完整体,正如王兴兴所言:“如果顺利,未来1-2年或者2-3年可以达到人形机器人的ChatGPT时刻,最慢的话3-5年”。这个预测同样适用于自动驾驶领域——我们正处在技术爆发的临界点。

当世界模型真正成熟时,自动驾驶将不再仅仅是“学会了开车”,而是“理解了开车”,这将是一个质的飞跃。

从目前技术发展看,VLA在落地应用上暂时领先,高德、理想、小米等公司的实际应用已经证明了其价值。世界模型虽潜力巨大,但仍需在预测精度和计算效率上突破。
未来的自动驾驶系统可能会融合两种路线的优势:用VLA处理感知和交互,用世界模型负责决策和规划。这种混合架构将同时具备VLA的泛化能力和世界模型的规划能力,真正实现能够适应复杂物理世界的人工智能。

Logo

更多推荐