25年7月来自阿联酋 MBZUAI、CMU 和 UCSD的论文“Critiques of World Models”。

世界模型,即生物智体所体验并采取行动的现实世界环境算法替代,近年来由于开发具有人工智能(通用)虚拟智体的需求日益增长,其成为新话题。关于世界模型的真正含义、如何构建、如何使用以及如何评估它,一直存在诸多争论。本文以著名科幻经典《沙丘(Dune)》中的想象为起点,并借鉴心理学文献中“假设性思维”的概念,对几种世界模型学派的思想进行批判,并指出世界模型的主要目标是模拟现实世界中所有可行的可能性,以便进行有目的的推理和行动。基于这些批评,本文提出一种通用世界模型的新架构,该架构基于分层、多级和混合连续/离散表示,以及生成和自我监督学习框架,并展望由这种模型实现的物理、智体和嵌套 (Physical, Agentic, and Nested,即 PAN) AGI 系统。

请添加图片描述

。。。。。。继续。。。。。。

架构:自回归生成并非敌人

摒弃自回归生成模型;采用联合嵌入预测架构 (JEPA),以避免 token 生成误差呈指数级增长,并吸收信号变异性。

JEPA 的支持者主张采用非自回归、非生成性的编码器-编码器框架,该框架可直接预测下一个潜状态,从而避免重建原始观测值。然而,该框架的架构本质上仍然是自回归和生成性的。

JEPA 正式定义了两个核心函数(如图左所示):

sˆ = h(o), sˆ′ = f(sˆ, a)

请添加图片描述

其中 h 是从观测值到潜状态的编码器,f 是根据当前状态和动作预测下一个潜状态的世界模型。这两个算子的递归应用定义一个潜转移模型,该模型实际上具有自回归和生成性,尽管它在符号上缺乏一个显式的概率解码器来生成可与真实的下一个观测数据进行比较的数据。(这并不意味着可以避免这种比较,因为输出端的第二个编码器实际上仍然间接地进行了这种比较,但数学可控性较差)。更准确地说,JEPA 可以被视为指定一个退化条件分布,非正式地表示如下:

p_f(sˆ|sˆ, a) = δ(sˆ −f(sˆ, a)),

其中 δ(·) 是以确定性预测为中心的狄拉克 δ 函数。因此,JEPA 在概率意义上并非生成式(即,它不建模不确定性或来自结果分布的样本),但在功能意义上,它具有生成式,即递归模拟潜状态随时间推移的演变,因此也存在与自回归模型相同的问题。然而,这并不是说自回归模型由于误差累积而存在固有缺陷。许多现实世界的系统(例如,三体问题、流体动力学或金融市场)本质上是混沌的,微小的偏差会随时间呈指数增长 [29]。在这种情况下,无论模型类别如何,都不可能做出精确的预测。然而,结构良好的自回归模型(例如,连续情况的卡尔曼滤波器和离散情况的 HMM)仍然可以学习系统有用的抽象属性(例如,水是否会溢出、价格变动的方向),这些属性通常出奇地稳定和可预测——这是基于遍历理论和统计力学的见解 [27]。

编码器-解码器架构(它定义一个附加函数 oˆ’ = g(sˆ’),其中 g 表示从潜状态到观测值的解码器)的一个常见问题是,它们可能会迫使模型重建环境中那些本质上不可预测或与任务执行无关的方面。经常引用的例子包括细粒度的视觉细节、无关紧要的事件或场景外的内容,这些都可能误导模型学习不稳定或虚假的相关性。因此,仅编码器架构的支持者认为,通过避免这个重建步骤,生成的世界模型 (WM) 可以更有选择性地关注可预测和与任务相关的元素。虽然这种动机可以理解,但移除解码器是否是有效的补救措施仍不清楚。在 JEPA 这样的架构中,监督仅发生在潜空间而非观测空间,从而用像素级变异性的挑战换取了不确定性的风险:预测的潜变量并非直接基于可观测数据,这使得很难判断模型是在学习有意义的动态变化还是崩溃为平凡的解。

面对数据信号变异性,下一状态预测性能的下降可能与其说是源于生成解码器的存在,不如说是源于连续嵌入本身的使用,它将大量信息压缩到具有固定维度的有限子空间中。通常用于下一状态预测的基于能量损失函数可能会带来额外的不稳定性,这通常需要基于启发式的正则化器,而这些正则化器的行为难以理解和控制。此外,信号变化的挑战在视觉相关领域可能尤为严重,而许多下游推理任务(例如自动驾驶)可能不需要对视觉世界进行像素完美的模拟。因此,与其放弃生成模型来避免信号变化,不如采用一种替代且成熟的策略,即称之为生成潜预测 (GLP) 架构的分层抽象(如上图右所示)。GLP 不是在单一细节层面上对整个世界进行建模,而是将问题分解到多层潜预测中,每层都针对不同的表示粒度,无论是连续的感知特征还是离散的概念 tokens。这使得每一层都能在适当的抽象级别上运行,同时保持生成性和预测性。例如:
• 在最低层级,下一个嵌入预测器(例如,潜扩散模型 LDM)可以处理原始连续感知数据(例如,像素、音频、本体感觉)中的随机性和细粒度变化。这些模型结合生成机制(例如,编码器-解码器架构),直接将预测建立在可观测数据的基础上,从而实现更强的监督。
• 在中间层级,下一个 token 预测器(例如,自回归 Transformer 解码器)可以对通过 VQ-VAE 类编码器导出的离散模态 token 进行推理,从而捕捉符号和组合结构。
• 在最高层级,在由语言 token 组成的“思维空间”中运行的大语言模型(LLM)可以支持长期规划、心理模拟和反事实推理。与中间层一起,这两个级别的离散推理可以通过执行下一个 token 预测的增强型 LLM 架构联合实现。

GLP 范式不仅支持通过下一个潜预测进行结构化抽象推理,而且还保留对输入世界进行详细重构的能力,从而实现生成性监督和外部使用。这不仅通过隔离底层编码器-解码器层内的低级可变性来减轻预测误差的复合,而且还支持在更高抽象层进行更具表现力的推理和泛化。重要的是,它允许模型灵活地将用于感知细微差别的连续嵌入与用于抽象结构的离散 token 混合。这种编码器-世界-模型-解码器设计比 JEPA 等仅使用编码器的方法具有更强的监督和更稳定的训练动态。

目标:在数据空间还是潜变量空间学习?

放弃概率数据重构目标;采用基于能量的潜重构目标,以提高易处理性。

JEPA 框架的一个关键主张是,重构原始观测值(例如视频中的像素)是不必要的,在潜变量空间学习更有效。这导致对潜重构目标的偏好,它绕过解码器,直接监督编码状态之间的转换。形式上,给定编码器 h 和世界模型 f,潜重构损失 L_latent(h, f) 中模型预测下一个潜状态 sˆ 并将其与下一个观测值的编码形式进行比较,而无需重构 o′ 本身。

尽管这个目标看似简单,它很容易崩溃:模型可以通过将所有观测值映射到一个常向量并学习一个不变的转换来轻松最小化损失。为了抵消这种趋势,JEPA 风格的系统通常需要复杂的正则化器(例如,最大化潜状态的信息 I(sˆ))。然而,这些正则化器通常难以调整且难以理解,这会使训练变得脆弱并限制可扩展性。相比之下,生成重建损失 L_gen(h, f, g) 通过引入解码器 g 并直接监督预测的下一个观测值,将学习目标建立在可观测数据的基础上。事实上,生成损失 L_gen 将学习的表征锚定到感知世界的结构上,从而避免潜损失 L_latent 所遭受的崩溃。

如图所示:比较基于潜空间重建的世界模型目标(左)和生成数据重建目标替代方案(右)。

请添加图片描述

除了崩溃问题之外,潜重构目标函数更根本的结构性限制在于,它本质上充当观测级一致性的松散替代。这意味着最小化 L_latent 通常并不能保证与智体在现实世界中观察到的一致性,这可能导致表示错位或脆弱。在通用设置中,通过生成损失锚定到下一个观察值 o′ 可以提供更稳定且机制上可解释的训练信号。

在实践中,ε 较小(对于现代强自编码器而言,这很常见),因此 L_latent ≤ L_gen 通常成立,这意味着前者可能会遗漏后者惩罚的语义上重要的错误。此外,将不太为人理解的正则化项与 L_latent 作为目标函数结合使用,使得在没有观测数据施加必要边界条件的情况下更难以评估其结果。

请添加图片描述
总而言之,并非世界模型必须在像素空间中运行,而是它们应该从中学习。将这种区别定义为下一个表征预测与下一个观察预测会造成一种错误的二分法,这可能导致理论上的模糊性和实践上的不稳定性。预测下一个观察的目的是确保预测的潜表征在现实世界中有意义地建立在概念或物理上的基础之上。相反,潜空间中的可靠预测依赖于通过可观察数据进行持续验证。

从数学上讲,任何现实世界信号的潜表征本质上都存在可识别性和稳定性的问题。因此,与真实数据的对齐和标定对于确保表征保持有意义和鲁棒性至关重要。生成式重建目标将学习的表征与可观察世界联系起来,提供更丰富、更稳定的学习信号,以支持有意义的区分、通用可用性和人类可解释性。这些特性对于下游应用至关重要,无论是规划轨迹还是通过强化学习训练智体。
如图所示:JEPA 潜重构损失 (L_latent) 的上限为生成数据重构损失 (L_gen) 加上一个较小的编码器-解码器重构误差 (ε)。ε 在实践中较小,这意味着 L_latent ≤ L_gen 通常成立。因此,最小化 L_latent 并不能保证与观测数据的一致性,而这正是最小化 L_gen 的必要条件。

用法:模型预测控制 (MPC) 还是强化学习 (RL)?

放弃强化学习 (RL);采用模型预测控制 (MPC),以减少训练过程中所需的试验次数。

除了训练世界模型之外,在使用世界模型 (WM) 进行推理时,由于样本效率和安全性优势,模型预测控制 (MPC) 是否比强化学习 (RL) 更受青睐也一直存在争议 [13]。描述一个典型的 MPC 设置(如图左所示),该设置经常被最近的研究 [35, 3] 采用:在推理过程中的时间步 t,智体推断其当前潜状态 sˆ_t = h(o_t),提出一个初始动作序列 (a_t, …, a_T −1),直到某个决策范围 T ,并使用世界模型预测相应的下一状态序列 (sˆ_t+1, …, sˆ_T)。然后,可以使用目标 g 的成本函数 C(g, sˆ)(例如,sˆ 与编码目标 sˆ_g = h(g) 之间的 L2 距离)来评估这些模拟状态,智体可以基于此提出成本更低的下一个动作。因此,决策过程实际上就是寻找最小化成本函数的动作序列。
请添加图片描述
在实践中,(连续)动作优化通常使用传统的数值算法(例如 MPPI [46] 和 CEM [31])进行,其决策范围为 1-20 步,基于数千个动作样本进行数百次优化。智体在执行最终动作序列 a_t 中的第一个动作之前,会在下一步 t+1 重新规划。 MPC 的吸引力在于它能够从离线轨迹 (o_1, a_1, . . . , o_T ) ∼ D 中学习,而无需在现实世界中进行潜在的不安全探索,并且能够通过基于世界模型的模拟做出更高质量的决策。
然而,MPC 也存在实际局限性。例如,在推理过程中,使用世界模型模拟潜轨迹必须在每个时间步重复执行,这会导致高昂的计算开销,并且难以在快速变化的环境中有效响应。除了计算效率之外,MPC 在搜索范围方面通常只能提前几步进行规划(例如,最多 10-20 步)。这限制其预见性,因为由于轨迹数量和世界模型误差的激增,长规划范围(例如,数百步)可能很困难。随着规划范围的扩大,MPC 的实现和优化难度也随之加大,因为提议分布必须在整个规划范围之内一次性采样整个动作序列。正因如此,MPC 通常依赖于相对简单的提议分布,例如均匀随机采样或多元高斯分布。事实上,MPC 目前主要在简化场景(例如围棋)中展现出良好的前景,因为这些场景中的环境动态简单,且较慢的决策会获得奖励。但 MPC 难以扩展现实世界的任务(例如客户服务),因为这些任务通常涉及复杂的动态,需要短期和长期决策的混合。

另一方面,强化学习是一种通用、灵活且可扩展的智体训练方法,不受决策方法或搜索范围的限制。具体而言,可以用世界模型 f 代替真实世界来进行探索和学习。描述一个强化学习设置(如上图右所示),其中智体与世界模型交互,而不是与环境交互 [17]:在每个时间步 t 中,智体使用世界状态表示 sˆ_t(可能由一些观测数据 o_t 编码,或完全从头开始构想),智体 π 采取行动 a_t ∼ p_π(a_t | sˆ_t),世界模型 f 模拟下一个状态 sˆ_t+1 ∼ p_f(sˆ_t+1 | sˆ_t, a_t)。此过程可能重复,直到某个推广范围 T,或以永无止境的方式进行。根据目标 g 计算每一步的奖励 r(g, sˆ_t),最优智体 π_f 可以通过最大化预期折扣累积奖励进行学习(使用良好的折扣调度方案 {γ_k} 以确保数值稳定性)。

从操作上讲,如上所示,MPC 和 RL 都可以使用世界模型,前者仅用于决策,而后者也用于学习。后者是更广泛范式的一部分:从经验中学习 [20]。在这个框架中,智体模型不断地与由世界模型模拟的无限想象世界空间交互并从中学习。然后,可以使用无数的假设轨迹通过 RL、模仿学习或其他充分利用所有经验的学习信号来训练智体。这些更新可以完全离线进行,使用来自世界模型的批量部署,而不是与真实环境交互。

与在决策阶段计算成本高昂的 MPC 相比,使用世界模型的 RL将部分计算成本转移到训练阶段。它不是在每一步都从头开始规划,而是离线使用世界模型来训练策略网络,该网络稍后可以在每个状态下重复用于快速动作选择。至关重要的是,强化学习、模型预测控制(MPC)以及世界模型都可以作为智体模型的组成部分,该模型必须同时承载深思熟虑的规划和反应式行动,同时另一个快速策略仍然可以在需要时学习并做出快速反应。尽管最近的研究(例如 o1、o3 和 R1 [16])可以看作是数学和编程中的特例,其中基于无模型策略的方法能够实现快速反应行为,但建议采取推广这一模式:智体应该能够推理并学习其模拟的世界,从而实现灵活的决策、持续改进以及随着经验的积累而涌现的智能。

总而言之,如上所述,与模型预测控制(MPC)不同,强化学习(RL)可以学习反映长期累积奖励的策略函数,从而能够在更长的时间范围内进行更具战略性的推理。这使得它能够应用于目标导向的机器人操作、多轮对话系统或自动驾驶等实际场景。


基于对现有世界模型框架的批判,得出以下关于通用世界模型 (WM) 设计原则的结论:

  1. 使用来自所有经验模态的数据;
  2. 采用混合连续和离散表示;
  3. 采用具有扩展 LLM 主干(用于基于离散概念的推理)的分层生成模型范式以及生成嵌入预测模块(用于基于连续梯度的推理)作为推理引擎;
  4. 基于观察数据进行生成损失训练;
  5. 应用世界模型模拟使用强化学习训练智体的经验。

本文提出一种架构 PAN——一种基于上述设计原则的物理、智体和嵌套世界模型,以此来结束对 WM 的批判。

一个激励人心的用例

一个真正多功能且可推广的 WM 必须以能够反映现实世界推理需求全部复杂性的任务为基础。这些任务可能包括数据模态(例如,语言、视觉、感官)、时空范围(从房间中的一秒钟到整个国家中的几天)、动作粒度(例如,精细运动控制、身体运动、富有表现力的手势)以及决策规模(从即时行动、策略到长期战略)的变化。虽然许多现有的 WM 是在简化的玩具任务(例如,操作厨房用具)和简单场景(3D 世界中几秒到几分钟的视频)上演示的,但这些设置不足以捕捉现实世界智体体验的丰富性。因此,围绕这些任务设计 WM 不太可能扩展到现实世界应用所需的复杂性。例如,仅支持厨房工具操作的 WM 不足以规划和执行餐厅的端到端晚餐服务。

相比之下,PAN 的动机则源于一个更为复杂和现实的用例:登山探险。在这种情况下,WM 必须内化多模态感官输入,并模拟未来的世界状态,以完成一项高要求的结构化任务。这项任务自然分解为多个相互关联不同层次的子任务:高级决策,例如装备选择、路线和路段规划、导航、天气评估、步调等;低级动作,例如攀爬、绳索和根据地形和地面状况进行精确的运动控制;以及通过口头和非口头交流与队友进行社交协调等等。

登山者的感官体验不仅包括视觉和听觉——雪原、悬崖、同伴在前方呼喊——还包括触觉和运动信号,例如风、寒冷和肌肉拉伤。驱动有目的推理的可操作世界状态,例如地形 affordance、团队动态或潜风险,存在于其下的多个抽象层次上。因此,PAN 首先接收这种连续的多模态信号流:来自视觉、声音、温度、运动甚至疼痛的输入,这些输入可能分别与不同的任务相关,但共同构成一个整体的现实。

PAN 架构

PAN 遵循混合表征和多尺度推理原则,使用其感知编码器 (h) 处理多模态感知输入。该编码器通过离散和连续路径映射输入,以捕捉世界的互补方面。一方面(如图所示),token 化器将原始信号分层映射到基于 PAN 词汇表的离散 token,这些词汇表跨越多个抽象层次。这些 token 可能包含通过 VQ-VAE 类方法 [39] 学习的抽象 tokens,也可能包含从自然语言中提取的具体词汇。该表征可以包含数量灵活的此类 token,以紧凑地反映深层世界信息:我在哪里?谁和我在一起?我有什么工具?我的情绪状态如何?这种表征形式足以捕捉相关信息,即使对于像视频这样的连续数据也是如此。

请添加图片描述

另一方面,PAN 还可以将低级细节编码到连续的潜嵌入中,以便在必要时捕捉完整细致的感知体验 (如下图右所示 GLP)。这些 token 和嵌入共同构成世界状态 sˆ = {sˆ_i} 的分层估计,PAN 可在此基础上进行模拟和有目的的推理。

请添加图片描述

给定一个建议的动作 a(例如,“将登山扣扣到我的安全带上”),PAN 使用基于增强型 LLM 和基于扩散的下一个潜嵌入预测器构建的世界模型主干 (f) 来预测下一个世界状态 sˆ’(例如,“我已安全锚定”这样的概念状态,或“绳子正在收紧”这样的物理状态)。该设计是GLP 架构的具体实例(上图右所示)。基于 LLM 的主干网络推理自然语言token 和学习的概念词汇——其中一些是显性的(例如,特定形状的冰锥),另一些是隐性的或突发性的(例如,分享辛苦获得的知识时产生的感受)。这支持跨领域的广泛泛化 [12]。在训练和推理过程中,该模型还可以通过引入新 token 或合并现有 tokens 来动态扩展其词汇量,以最大限度地提高预测质量。

另一方面,基于扩散的嵌入预测器负责快速、低级且通常是潜意识的推理,这些推理对于具身反应至关重要,但难以用语言表达。该模块模拟详细的感知体验,例如立足点是否牢固,或者身体在攀爬过程中如何转移重心 [48]。一个学习的开关(switch)允许 PAN 根据任务需求自适应地组合基于 LLM 的主干网络、多个词汇表和基于扩散的嵌入预测器,从而分层地 ({sˆ’_i}) 预测下一个世界状态。这些机制使 PAN-WM 能够跨越时空范围和动作粒度,从而满足通用性需求——从登山和社交互动等具体的物理场景,到全国性政策变化等抽象且影响深远的战略后果。

为了监督其预测,并允许训练后的 WM 与可能使用其输出的外部智体(或人类)交互,PAN 使用多模态(其他具身信号,甚至文本)解码器重构下一个观测值 oˆ’。这种生成性监督将预测的世界状态 sˆ’ 建立在感知现实的基础上,确保表征保留所有可能的信息,同时允许解码器 g 吸收残差变化。这种方法与基于下一个表征预测训练的模型(例如 V-JEPA 2 [3])形成鲜明对比,后者纯粹在潜空间中监督世界模型。后者的目标充其量只是生成性目标的松散替代,并且容易出现表征崩溃或无法识别的情况,因为它们缺乏基于真实感官输入的依据。PAN 的正式模型是,给定当前观察值 o 和拟议行动 a,对下一个观察值 o′ 的条件分布进行建模。

总体而言,PAN 具有分层、多级和混合表征架构,以及一个将感知 o、行动 a、信念 sˆ_i、模拟信念 sˆ’_i 和模拟世界 o′ 串联起来的编码器-解码器流水线,因此它代表一种通用的生成模型,用于模拟现实世界中可操作的可能性,以便智体进行有目的的推理,PAN 并没有回避原始感知输入的多变性,而是对其进行模块化和组织。这使得每一层经验的内部模拟更加丰富,从而能够实现更强大的智体推理和规划。

训练 PAN 世界模型

从登山的例子中可以明显看出,仅仅观看视频不足以学习完成最终目标所需的所有推理能力,这可能需要数天的时间以及从一开始就进行成千上万次的操作和步骤,并且需要建立在丰富的地理、气候、装备、运动甚至历史背景知识之上。

PAN-WM 的训练应采用“分而治之”的方法,首先通过自监督对每个模块进行独立预训练(例如,针对文本数据使用 LLM,针对视频数据使用扩散模型)。然后在训练后阶段,使用多模态数据、级联嵌入和梯度传播对这些特定于模态和级别的模块进行对齐或集成。在连续嵌入上运行的模块可以使用标准的基于梯度优化技术进行训练。相比之下,使用离散 token 的组件可能会受益于类似于强化学习 [16] 的无梯度方法。其基于数据重构的生成式目标,以观测数据为基础,并为整个系统提供稳定可靠的学习信号。

PAN架构的一个关键优势在于其数据效率,因为它采用多尺度和分层的世界观。在登山任务中,当推理导航和路径查找时,世界状态无需包含像素级别的雪地或岩石表面细节;而在决定在攀登过程中将手脚放在哪里时,世界状态可以忽略地理环境。因此,模拟高度复杂可能性的WM,不必依赖于能够一次性捕捉所有此类复杂性的数据(例如,以视觉方式涵盖所有级别登山活动的视频),而是要利用提供不同级别信息的不同类型数据(例如,用于路线指南和地图阅读的旅行书籍,以及用于攀岩和装备使用的室内视频)。毕竟,期望建立一个涵盖高山攀登各个方面的海量视频语料库是不现实的。许多通用能力(例如,社交推理、旅行计划、寒冷天气生存)可以从丰富的语言数据中学习。只有直接具身的技能(例如,脚的位置、攀岩技巧)才需要视频或本体感觉等物理数据,而这些数据可以在受控或模拟环境中获得。

事实上,PAN 的预训练-然后-对齐/集成策略能够通过 LLM 将感官信息(例如,来自视频扩散模型的信息)扎根于更高层次、更丰富的情境中,从而促进跨模态泛化。同时,嵌入在 LLM 中的抽象知识可以锚定到具体的、具身的经验中,从而提高系统推理的精度和真实性 [49]。最终,WM 能够像人类一样,从多样化的经验中获得常识性理解。因此,它不需要针对每个特定任务(例如登山或自动驾驶)提供详尽的训练数据,而是可以利用从多个领域获得的概念知识。这种通用的 WM 模型非常适合模拟智体决策和/或训练的经验。

使用 PAN 进行智体推理

回想一下,概述使用世界模型进行模拟推理的智体架构。PAN 自然地融入这一范式,它不仅充当视频生成器,还能充当用于模拟、实验和预测的丰富内部沙盒。

如图所示,PAN 智体在目标的驱动下,接收来自现实世界的连续感知流,预计会提出行动、规划(行动序列)或策略(基于反事实情境的规划),这将涉及使用 PAN-WM 预先计算和缓存各种可能的世界状态、这些状态下的合理行动及其模拟结果 [9]。

请添加图片描述

在决策时,智体可以参考这些缓存,并根据当前信念和预期奖励来选择行动,而不是仅仅依赖于执行昂贵的实时模拟。这种将模拟与动作选择分离的做法,使得智体能够更谨慎、更具适应性、更具选择性地进行推理,从而避免了端到端强化学习中纯反应式策略的僵化,以及模型预测控制(MPC)中持续向前推进的计算负担。最终,智体将更接近人类的认知能力——提前规划、应对不确定性,并兼具灵活性和前瞻性。这代表着朝着拥有更丰富自主性的智体迈出重要的一步——它不仅能够进行模拟推理,还能在想象的未来中进行有目的地选择。这样的智体最终或许能够接近人类智能所特有的适应性、韧性和自主性。

Logo

更多推荐