25年6月来自Meta FAIR 的论文“V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning”。

现代人工智能面临的一大挑战是学会理解世界,并主要通过观察来采取行动(LeCun,2022)。本文探索一种自监督方法,该方法将互联网规模的视频数据与少量的交互数据(机器人轨迹)相结合,以开发能够理解、预测和规划物理世界的模型。首先在包含超过一百万小时互联网视频的视频和图像数据集上预训练一个无动作的联合嵌入预测架构 V-JEPA 2。V-JEPA 2 在运动理解方面取得强劲的表现(在 Something-Something v2 数据集上达到 77.3 的 top-1 准确率),并在人类动作预测方面取得最佳表现(在 Epic-Kitchens-100 数据集上达到 39.7 的召回率),超越以往针对特定任务的模型。此外,在将 V-JEPA 2 与大型语言模型对齐后,在 80 亿参数规模的多个视频问答任务中展示最佳性能(例如,在 PerceptionTest 上为 84.0,在 TempCompass 上为 76.9)。最后,展示如何通过使用来自 Droid 数据集的不到 62 小时的未标记机器人视频对潜动作条件世界模型 V-JEPA 2-AC 进行后训练,将自监督学习应用于机器人规划任务。在两个不同的实验室中将 V-JEPA 2-AC 零样本部署到 Franka 机器人手臂上,并使用带有图像目标的规划来实现物体的拾取和放置。值得注意的是,未从这些环境中的机器人收集过任何数据,也未进行任何特定于任务的训练或奖励,这样情况下仍然实现如此性能。这项工作展示如何通过从网络规模数据和少量机器人交互数据进行自监督学习,来生成能够在物理世界中进行规划的世界模型。


人类在承担新任务和在陌生环境中行动时,具有适应和泛化的能力。一些认知学习理论认为,人类通过整合低级感官输入来学习一个内部世界模型,以表征和预测未来状态(Craik,1967;Rao and Ballard,1999),并进一步假设,这个世界模型塑造在任何特定时刻的感知,在理解现实方面发挥着至关重要的作用(Friston,2010;Clark,2013;Nortmann et al.,2015)。此外,预测自身行为对未来世界状态的影响的能力对于目标导向的规划也至关重要(Sutton & Barto,1981,1998;Ha & Schmidhuber,2018;Wolpert & Ghahramani,2000)。构建能够从视频等传感数据中学习世界模型的人工智体,可以使它们理解物理世界,预测未来状态,并像人类一样在新情况下有效地进行规划,最终构建出能够处理前所未有的任务的系统。

先前的研究探索如何从由状态-动作序列组成的交互数据中开发预测世界模型,这些模型通常也依赖于来自环境的显式奖励反馈来推断目标(Sutton & Barto,1981;Fragkiadaki,2015;Ha & Schmidhuber,2018;Hafner,2019b;Hansen,2022)。然而,现实世界交互数据的有限可用性限制这些方法的可扩展性。为了突破这一局限性,近期的研究利用互联网规模的视频和交互数据来训练用于机器人控制的动作条件视频生成模型,但在使用基于模型的控制进行机器人执行方面仅取得有限的成果 (Hu et al., 2023; Yang et al., 2024b; Bruce et al., 2024; Agarwal et al., 2025)。具体而言,这类研究通常侧重于评估预测的忠实度和视觉质量,而非规划能力,这可能是因为通过生成视频进行规划的计算成本较高。

本研究以自监督假设为基础,构建一种学习世界模型的方法,该模型主要通过观察来捕捉世界的背景知识。具体而言,利用联合嵌入预测架构 (JEPA) (LeCun, 2022),它通过在已学习的表征空间中进行预测来进行学习。与那些完全专注于从交互数据中学习的方法相比,自监督学习能够利用互联网规模的视频(无需直接观察动作即可描述状态序列)来学习表征视频观察结果,并在这个学习的表征空间中学习世界动态的预测模型。此外,与基于视频生成的方法相比,JEPA 方法专注于学习场景中可预测方面(例如,运动物体的轨迹)的表征,同时忽略生成目标所强调的不可预测细节,因为它们进行像素级预测(例如,田野中每片草叶或树上每片叶子的精确位置)。通过扩展 JEPA 预训练,可以生成具有最先进理解和预测能力的视频表征,并且此类表征可以用作动作条件预测模型的基础,并实现零样本规划。

该方法 V-JEPA 2 采用分阶段训练流程,首先使用互联网规模的视频进行无动作预训练,然后使用少量交互数据进行后训练(如图所示)。在第一阶段,用掩码去噪特征预测目标(Assran,2023;Bardes,2024),其中模型在学习的表征空间中预测视频中被掩码的片段。用多达 10 亿个参数和超过 100 万小时的视频来训练 V-JEPA 2 编码器。实验证实,通过基于探测的评估,并将编码器与用于视频问答的语言模型对齐,可扩展的自监督视频预训练能够增强编码器的视觉理解能力,包括广泛的运动和外观识别能力 (Krojer et al., 2024; Pătrăucean et al., 2023; Liu et al., 2024c; Cai et al., 2024; Shangguan et al., 2024)。

请添加图片描述

在互联网规模的视频上进行预训练后,用第一阶段学习的表征,在一小组交互数据上训练一个动作条件世界模型 V-JEPA 2-AC。该动作条件世界模型是一个 300M 参数的 Transformer 网络,采用块因果注意机制,它根据动作和先前状态自回归地预测下一视频帧的表征。仅使用来自 Droid 数据集 (Khazatsky et al., 2024) 的 62 小时未标记交互数据,证明训练潜世界模型的可行性,该模型在给定子目标的情况下,可用于规划 Franka 机械臂上的动作,并在新的环境中通过单目 RGB 相机零样本执行抓握操作任务。

本文在一个包含超过 100 万小时视频的视觉数据集上对 V-JEPA 2 进行预训练。这项自监督训练任务基于表征空间中的掩码去噪,并基于 V-JEPA 框架 (Bardes et al., 2024) 构建。本文扩展 V-JEPA 框架,探索更大规模的模型,增加预训练数据量,并引入空间和时间渐进分辨率训练策略,能够高效地对超过 16 帧短视频片段的模型进行预训练。

方法

表征空间中的掩码去噪。V-JEPA 目标函数旨在从掩码(即,已随机丢弃图像块)的视频视角 x 预测视频 y 的学习表征(如图左所示)。该任务元架构由一个编码器 E_θ(·)(用于提取视频表征)和一个预测器 P_φ(·)(用于预测掩码视频部分的表征)组成。编码器和预测器使用一个目标函数同时训练,该损失函数使用停止梯度运算 sg(·) 和编码器网络权重 θ 的指数移动平均值 θ- 来防止表征崩溃。该损失函数仅适用于被掩码图图像patch的预测。

请添加图片描述

架构。编码器 E_θ(·) 和预测器 P_φ(·) 均被参数化为视觉transformer (Doso-vitskiy et al., 2020)(或 ViT)。为了在视觉transformer中编码相对位置信息,用 RoPE 代替 Bardes et al. (2024) 中使用的绝对正余弦位置嵌入。用传统 1D-RoPE (Su et al., 2024) 的 3D 扩展,将特征维度划分为三个近似相等的段(分别用于时间轴、高度轴和宽度轴),并对每个轴的段分别应用 1D 旋转。用 3D-RoPE 代替绝对正余弦位置嵌入 (Vaswani et al., 2017) 有助于稳定最大模型的训练。为了使用 Transformer 编码器处理视频,首先将其拼合为大小为 2 × 16 × 16 (T × H × W) 的 tubelet 序列,并采用与 Bardes (2024) 相同的多块掩码策略。

关键扩展要素。包括4个要素:

  1. 数据扩展:利用和整理其他数据源,将数据集大小从 200 万个视频扩展到 2200 万个视频。
  2. 模型扩展:将编码器架构的参数从 3 亿个扩展到超过 10 亿个,从 ViT-L 扩展到 ViT-g (Zhai,2022)。
  3. 更长的训练时间:采用“预热-恒定-衰减”学习率方案简化超参调整,能够将训练次数从 9 万次扩展到 25.2 万次迭代,从而有效地利用额外的数据。
  4. 更高的分辨率:用“预热-恒定-衰减”方案,通过在预热和恒定阶段对较短、较低分辨率的片段进行训练,然后在最后的衰减阶段提高分辨率和/或片段长度,有效地扩展到更高分辨率的视频和更长的视频片段。

评估协议。模型预训练的目标是将通用的视觉理解能力融入编码器。因此,评估模型在六项运动和外观分类任务中学习的表征质量来评估模型和数据设计方案:Something-Something v2 (Goyal et al., 2017)、Diving-48 (Li et al., 2018)、Jester (Materzynska et al., 2019)、Kinetics (Kay et al., 2017)、COIN (Tang et al., 2019) 和 ImageNet (Deng et al., 2009)。用冻结评估协议:冻结编码器权重,并在其表征上训练一个特定于任务的 4 层注意探测网络,以输出预测类别。

扩展自监督视频学习

首先总结扩展分析的主要发现,并研究了四个关键因素对下游任务平均性能的影响。如图展示了这些扩展干预措施对 6 个分类任务平均准确率的影响,其中使用以 V-JEPA 目标为基准、在 200 万个视频上预训练的 ViT-L/16 模型。将数据集从 200 万个视频增加到 2200 万个视频 (VM22M) 可带来 1.0 个百分点的提升。将模型参数从 3 亿个扩展到 10 亿个参数 (ViT-g/16) 可额外带来 1.5 个百分点的提升。将训练迭代次数从 9 万次扩展到 25.2 万次可带来另外 0.8 个百分点的提升。最后,空间分辨率 (256 -》 384) 和时间持续时间的提升使 ViT-L/16 基准模型累计提升了 4.0 个百分点。每个单独的变化都会带来积极的影响,证实了视频自监督学习 (SSL) 的扩展潜力。

请添加图片描述

预训练数据集

扩展数据集规模。整合公开数据源构建一个大规模视频数据集。整个数据集包括 Goyal (2017) 提出的 Something-Something v2 数据集 (SSv2) 中的以自我为中心的视频、Kinetics 400、600 和 700 数据集中的以外向为中心的动作视频(Kay,2017;Carreira,2018、2019)、HowTo100M(Miech,2019)的 YouTube 教程视频,以及 YT-Temporal-1B(Zellers,2022)的普通 YouTube 视频(称为 YT1B)。还纳入来自 ImageNet 数据集 (Deng et al., 2009) 的图像,以增加预训练数据的视觉覆盖范围。为了实现图像和视频的联合预训练,按时间复制图像,并将其视为一个 16 帧的视频,其中所有帧均相同。在训练期间,根据手动调整的经验确定的加权系数从每个数据源中采样。生成的数据集包含 2200 万个样本,称之为 VideoMix22M(或 VM22M)。下表列出这些数据源及其权重。

请添加图片描述

如图所示(左)比较在 VM22M 上预训练的 ViT-L/16 与在 Bardes et al. (2024) 提供的较小(200 万)VideoMix2M 数据集上训练的类似模型的性能。与 VM2M 相比,在 VM22M 上训练可使视觉理解任务的平均性能提高 +1 个百分点。在基于外观的任务(例如 Kinetics-400、COIN & ImageNet)上,性能提升更为显著,这表明提升视觉覆盖率对这些任务至关重要。

请添加图片描述

数据整理。YT1B 是一个大型视频数据集,包含 140 万小时的视频,与 Kinetics 和 Something-Something v2 等小型视频数据集相比,该数据集未经整理,且过滤程度极低。由于未经整理和不平衡的数据会影响模型性能(Assran,2022;Oquab ,2023),通过调整现有的基于检索整理流程来过滤 YT1B 中的视频。具体而言,从 YT1B 视频中提取场景,为每个场景计算一个嵌入向量,然后使用基于聚类的检索流程(Oquab,2023)根据目标分布选择视频场景,该分布由 Kinetics、Something-Something v2、COIN 和 EpicKitchen 训练数据集组成。与 Oquab (2023) 类似,确保初始的未整理数据池中不包含目标验证集中的任何视频。

在上图(右)中,比较在未整理的 YT-1B 数据上预训练的 ViT-L 模型与在 Curated-YT-1B 数据集上训练的类似模型在视觉理解评估中的平均性能。使用整理数据集进行训练,与未整理的基线相比,平均性能提升 1.4 个百分点。值得注意的是,在 ViT-L 规模上,使用 Curated-YT-1B 训练的模型相对于完整的 VM22M 数据集实现了具有竞争力的性能。然而,更大规模的模型从 VM22M 训练中受益更多,这表明将 Curated-YT-1B 与其他数据源相结合可以增强可扩展性。

预训练方案

扩展模型大小。为了探索模型的扩展行为,训练一系列编码器模型,其参数数量从 3 亿 (ViT-L) 到 10 亿 (ViT-g) 不等。每个编码器都使用相同的预测器架构,类似于 ViT-small。在下图(左)中报告这些编码器在视觉理解任务中的平均性能。将模型大小从 3 亿 (ViT-L) 扩展到 10 亿 (ViT-g) 参数,平均性能提升 +1.5 个百分点。运动和外观理解任务均受益于扩展,SSv2 提升 +1.6 个百分点,Kinetics 提升 +1.5 个百分点。这些结果证实,自监督视频预训练可以有效地利用更大的模型容量,最高可达 1B 参数的 ViT-g。

请添加图片描述

训练调度。 V-JEPA 2 模型训练采用先热身-恒定学习速率调度,然后是冷却阶段(Zhai,2022;Hägele,2024)。与 Hägele(2024)的研究类似,此调度的性能与半余弦调度(Loshchilov & Hutter,2016)相当;由于可以从恒定阶段的不同检查点开始多次冷却运行,因此它还使探索长时间训练运行更具成本效益。简化 Bardes(2024)的方法,通过维持固定的教师 EMA 和权重衰减系数,而不是使用上升调度,因为这些变化对下游理解任务的影响极小。将训练调度从 90K 次迭代扩展到 252K 次迭代,可使 ViT-g 模型的平均性能提高 +0.8,从而验证了延长训练时长的好处。此调度机制还能通过在冷却阶段逐步提高视频分辨率来促进渐进式训练。

高效的渐进式分辨率训练。虽然大多数先前的视频编码器专注于 16 帧(大约几秒)的短片段(Bardes,2024;Wang,2024b,2023),但探索使用更高空间分辨率的长达 64 帧(16 秒)的片段进行训练。然而,训练时间会随着持续时间的延长和分辨率的提高而急剧增加——在 64 × 384 × 384 的输入上训练 ViT-g 模型大约需要 60 GPU 年(见上图中间)。为了减少这一时间,采用渐进式分辨率策略(Touvron,2019;Oquab,2023),在保持下游性能的同时提高训练效率。训练过程始于热身阶段,在此阶段,用 16 帧、256 × 256 分辨率的视频进行训练,并以线性学习率进行热身,进行 12K 次迭代;然后进入主训练阶段,以恒定学习率进行 228K 次迭代。之后,在冷却阶段,增加视频时长和分辨率,同时以线性衰减学习率,进行 12K 次迭代。因此,与使用更长时长、更高分辨率视频进行训练相关的额外计算开销仅在最终冷却阶段产生。这种方法可以实现高效的高分辨率训练:如上图中间所示,与在所有训练阶段都以全分辨率从头开始训练此类模型相比,对于能够提取 64 帧、384 × 384 分辨率输入的模型,将 GPU 时间减少 8.4 倍。此外,能够处理更长时长和更高分辨率输入的模型的优势,如下所述。

缩放时间和空间视频分辨率。上图右展示了输入视频分辨率如何影响下游任务的性能。在预训练过程中,将视频时长从 16 帧增加到 64 帧,同时保持 16 帧的评估时长不变,平均性能提升 0.7 个百分点。此外,在评估过程中增加视频时长和分辨率可以显著提升各项任务的性能。这些结果表明,在训练和评估过程中,提高视频自监督预训练的时间分辨率都能使其受益。尽管尝试扩展到更长的视频片段(128 帧和 256 帧),但在这组理解任务中,并未观察到 64 帧以上有任何进一步的提升。

经过预训练后,V-JEPA 2 模型可以对视频中缺失的部分进行预测。然而,这些预测并未直接考虑智体可能采取的动作的因果效应。下一训练阶段将重点关注如何利用少量交互数据,使模型能够用于规划。为此,在冻结的 V-JEPA 2 视频编码器上学习一个帧-因果动作条件预测器。用来自 Droid 数据集(Khazatsky,2024)的数据训练模型,该数据集包含通过远程操作收集的桌面 Franka Panda 机械臂实验数据。由此产生的动作条件模型称为 V-JEPA 2-AC,可用于模型预测控制规划循环,以在新环境中规划动作。

动作-条件的世界模型训练

目标是在预训练后,利用 V-JEPA 2 模型,构建一个潜世界模型,该模型可通过闭环模型预测控制来控制具身智体系统。为此,训练 V-JEPA 2-AC,一个自回归模型,它能够预测未来视频观察的表征,这些表征会受到控制动作和本体感受观察的影响。

该框架的一个具体实例,是一个带有固定外心摄像头的桌面机械臂,其控制动作与末端执行器指令相对应。该模型使用原始 Droid 数据集中约 62 小时的未标记视频进行训练,该数据集包含短视频,通常时长 3-4 秒,视频内容是配备双指夹持器的 7 自由度 Franka Emika Panda 机械臂。这里,未标记视频指的是,不使用额外的元数据来指示任何奖励、每次演示中执行的任务类型,或者演示是否成功完成了所尝试的任务。相反,只使用数据集中的原始视频和末端执行器状态信号(数据集中的每个视频都附带元数据,指示每帧中的末端执行器状态——三个维度表示位置,三个维度表示方向,一个维度表示夹持器状态)。

V-JEPA 2-AC 训练过程如图所示,其中T = 4:采用自回归方式训练,利用教师强制损失和展开损失。(左图)在教师强制损失中,预测器将当前帧表征的编码作为输入,并学习预测下一个时间步的表征。(右图)展开损失将预测器的输出反馈回输入,使模型能够进行训练,从而预测未来几个时间步。通过优化这两个损失的总和,V-JEPA 2-AC 减少 展开过程中的误差累积,从而增强其准确预测未来的能力。

请添加图片描述

通过规划推断动作

能量最小化。给定目标状态的图像,利用 V-JEPA 2-AC 通过规划完成下游任务。具体来说,在每个时间步,最小化目标条件能量函数来规划固定时间范围内的动作序列。然后,执行第一个动作,观察新状态,并重复该过程。令 s_k 表示当前末端执行器状态,x_k 和 x_g 分别表示当前观察的帧和目标图像,它们分别用视频编码器编码以获得特征图 z_k 和 z_g。给定规划范围 T,通过最小化一个目标条件能量函数来优化机器人动作序列 (a_i )_i∈[T]。

如图所示,该模型通过选择一条轨迹来推断动作序列 (a_i )_i∈[T],该轨迹使世界模型的未来 T 步状态表示与其目标表示之间的 L1 距离最小化。在实践中,在每个规划步骤中使用交叉熵方法 (Rubinstein, 1997) 最小化所定义的目标条件能量函数,并且在重规划之前仅对机器人执行第一个动作,就像展开时域控制一样。

请添加图片描述

实验1:规划:零样本机器人控制

使用 V-JEPA 2-AC 通过模型预测控制来实现机器人的基本技能,例如伸手、抓取和拾取。专注于具有视觉目标规范的任务,并展示 V-JEPA 2-AC 如何将零样本泛化到新的环境中。

基准。将 V-JEPA 2-AC 的性能与两个基准进行比较:一个是通过行为克隆训练的视觉-语言-动作模型,以及一个基于视频生成的世界模型。
第一个基准基于 Octo 视频-语言-动作模型,该模型允许进行目标-图像调节 (Octo Model Team et al., 2024)。从该模型 octo-base-1.5 版本的开源权重入手,该版本已在包含超过 1M 条轨迹的 Open-XEmbodiment 数据集上进行了预训练。用事后重标记 (Hindrychowicz et al., 2017; Ghosh et al., 2019) 方法,利用图像目标和末端执行器状态,在整个 Droid 数据集上对 Octo 模型进行行为克隆微调。具体而言,在训练期间从 Droid 数据集中随机采样轨迹片段,并均匀采样轨迹中最多向前 20 个时间步的目标图像。用官方开源代码进行微调,包括所有标准的 Droid 优化超参数,并利用 256 × 256 分辨率的单侧图像视图输入、前两帧的上下文以及 4 个未来动作的范围。

比较的第二个基准基于 Cosmos 视频生成模型 (Agarwal,2025)。从无动作 Cosmos 模型(带有连续 token化器的潜扩散-7B)的开源权重入手,该模型基于 2000 万小时的视频进行训练,并使用官方发布的基于动作条件的微调代码 2 在 Droid 上对模型进行微调。为了提升在 Droid 上训练时的性能, (i) 降低学习率,使其与基于视频条件的 Cosmos 方案中的学习率一致;(ii) 移除视频条件中的 dropout 以改善训练动态;(iii) 将噪声水平提高 e2 倍,因为使用较低噪声因子训练的模型难以利用条件框架中的信息。尽管 Cosmos 技术报告(Agarwal,2025)提到使用世界模型进行规划或模型预测控制作为未来应用,但是一个首次报道尝试使用 Cosmos 模型进行机器人控制。

机器人部署。所有模型均以零样本方式部署在 Franka Emika Panda 机械臂上,该机械臂配备 RobotiQ 夹持器,位于两个不同的实验室,这两个实验室均未出现在 Droid 数据集中。视觉输入通过未标定的低分辨率单目 RGB 摄像头提供。机器人使用完全相同的模型权重和推理代码,以及基于操作空间控制的类似低级控制器。对 V-JEPA 2-AC 世界模型和 Cosmos 世界模型均使用阻塞控制(即系统等待最后一个指令操作完成后再向控制器发送新操作),并对 Octo 实验阻塞(blocking)和非阻塞(non-blocking)控制,并报告两种方案中的最佳性能。在使用 V-JEPA 2-AC 和 Cosmos 进行规划时,将每个采样动作限制在以原点为中心、半径为 0.075 的 L1-Ball 内,这对应于每个单独动作的最大末端执行器位移约为 13 厘米,因为大动作对于模型来说相对来说不属于分布范围。

实验2:理解:基于探测的分类

表征空间世界模型(例如上文讨论的 V-JEPA 2-AC)的功能本质上受限于所学习表征空间中编码的状态信息。探究 V-JEPA 2 学习的表征,并将 V-JEPA 2 编码器与其他视觉编码器在视觉分类方面的表现进行比较。

视觉分类任务可以侧重于外观理解或运动理解。外观理解任务通常可以使用输入视频片段单帧中可见的信息来解决(即使分类标签描述的是动作),而运动理解任务则需要多帧数据才能正确对视频进行分类 (Goyal et al., 2017)。为了确保对运动和外观的平衡评估,选择三个运动理解任务,分别是 Something-Something v2 (SSv2)、Diving-48 和 Jester,这些任务要求模型能够理解人类的手势和动作。对于外观理解,选择 Kinetics400 (K400)、COIN 和 ImageNet (IN1K),这些任务涉及动作、场景和物体的识别。实证研究表明,V-JEPA 2 在运动理解任务上的表现优于最先进的视觉编码器,同时在外观理解任务上也具有竞争力。

注意探测器。用来自每个任务的训练数据,在冻结的编码器输出之上训练一个 4 层注意探测器。注意探测器由四个 Transformer 模块组成,最后一个 Transformer 模块使用可学习的查询 token,用交叉注意层取代标准的自注意机制。按照标准做法,在推理过程中从视频中采样多个固定帧数的片段。然后对各个片段的分类逻辑进行平均。保持分辨率与 V-JEPA 2 预训练使用的分辨率相似。

评估协议。将 V-JEPA 2 在运动和外观任务上的表现与其他几个视觉编码器进行比较:带有寄存器的 DINOv2(Darcet,2024)是目前最先进的图像自监督学习模型,而 SigLIP2(Tschannen,2025)和感知编码器 PE_coreG(Bolya,2025)是两个最先进的图文对比预训练模型。还考虑了两个视频编码器:自监督的 V-JEPA(Bardes,2024)和主要依赖于视觉-文本对比预训练的 InternVideo2_s2 -1B(Wang,2024b)。

实验3: 预测:基于探测的动作预测

动作预测是指根据一个包含动作前某个时间点的上下文视频片段,预测未来的动作。使用 Epic-Kitchens-100 (EK100) 基准 (Damen et al., 2022),证明 V-JEPA 2 的动作预测性能会随着模型规模的扩大而持续提升。此外,尽管仅使用基于 V-JEPA 2 表征训练的注意探测模型,仍证明 V-JEPA 2 的表现显著优于此前专为此任务设计的先进方法。

任务。EK100 数据集包含 45 个厨房环境中 100 小时的烹饪活动,这些活动以自我为中心进行记录。EK100 中的每个视频都标注动作片段,包括开始时间戳、结束时间戳和动作标签。共有 3,568 个独特的动作标签,每个标签包含一个动词和一个名词类别,总共 97 个动词类别和 300 个名词类别。EK100 动作预测任务需要从动作片段开始时间戳之前发生的视频片段(称为上下文)中预测名词、动词和动作(即联合预测动词和名词)。上下文结束和动作片段开始之间的间隔称为预测时间,默认设置为 1 秒。鉴于给定上下文可能产生不同的未来动作,因此使用 5 倍平均类别召回率 (mean-class recall-at-5) 作为衡量性能的指标 (Damen et al., 2022)。

预测探测器。在冻结的 V-JEPA 2 编码器和预测器之上训练一个注意探测器,以预测未来的动作。具体来说,采样一个在动作开始前 1 秒结束的视频片段。该视频上下文被输入到 V-JEPA 2 编码器。预测器采用编码器表征以及对应于未来 1 秒帧的掩码token,预测未来视频帧的表征。预测器和编码器的输出沿token维度连接,并馈送到一个注意探测器,该探针的架构与前面“理解:基于探测的分类”实验使用的类似,不同之处在于,预期探测器的最终交叉注意层学习三个查询tokens(而不是一个),并且每个查询的输出被馈送到不同的线性分类器,分别预测动作类别、动词类别和名词类别。Focal 损失 (Lin et al., 2017) 被独立地应用于每个分类器,然后在通过探测器的共享注意模块反向传播之前进行求和。
基准。将模型与三个专门针对动作预测进行训练的基线进行比较:InAViT(Roy,2024)是一种利用显式手物交互建模的监督方法,而 Video-LLaMA(Zhang,2023)和 PlausiVL(Mittal,2024)都是利用大语言模型的方法,具有多达 70 亿个参数。

实验4: 理解:视频问答

探索 V-JEPA 2 执行开放语言视频问答 (VidQA) 的能力。为了实现语言能力,用 V-JEPA 2 作为视觉编码器,在非token 化早期融合 (Wadekar et al., 2024) 设置中训练多模态大语言模型 (MLLM),该设置由 LLaVA 模型系列 (Li et al., 2024b) 泛化。在该系列 MLLM 中,通过将视觉编码器的输出块嵌入投影到 LLM 的输入嵌入空间,视觉编码器与大语言模型对齐。然后,MLLM 可以进行端到端训练,也可以使用冻结视觉编码器进行训练。VidQA MLLM 中使用的大多数编码器通常是图像编码器,它们会逐帧独立应用于视频输入 (Qwen Team et al., 2025; Zhang et al., 2024b)。此类编码器的常见实例包括 CLIP(Radford,2021)、SigLIP(Tschannen,2025)和 Perception Encoder(Bolya,2025)。之所以选择它们,主要是因为它们通过对图像-字幕对进行预训练,实现与语言的语义对齐。本文工作采用在没有任何语言监督的情况下进行预训练的视频编码器来训练用于 VidQA 的 MLLM。MLLM 在下游任务上的性能也高度依赖于对齐数据。在这些实验中,用一个包含 8850 万个图像-文本和视频-文本对的数据集,与用于训练 PerceptionLM(Cho,2025)的数据集相似。为了证明 V-JEPA 2 编码器的有效性,首先用 1800 万个样本子集,在受控数据设置下将 V-JEPA 2 与其他最先进的视觉编码器进行比较。然后,在相同的受控设置下,展示缩放视觉编码器和输入分辨率大小均能持续提升 VidQA 的性能。最后,用完整的 8850 万个样本,对对齐数据进行缩放,以测试 V-JEPA 2 的语言对齐极限。结果表明,在受控数据设置下,V-JEPA 2 在开放式 VidQA 任务上获得与其他视觉编码器相比颇具竞争力的性能。在缩放对齐数据后,V-JEPA 2 在多个 VidQA 基准测试中均达到最佳性能。

视频问答任务。在 PerceptionTest(Pătrăucean,2023)上进行评估,该数据集评估模型在记忆、抽象、物理和语义等不同技能方面的表现。此外,还在 MVP 数据集(Krojer,2024)上进行评估,以理解物理世界,该数据集利用最小视频对评估框架来减轻文本和外观偏差。还在 TempCompass、TemporalBench 和 TOMATO(Liu,2024c;Cai,2024;Shangguan,2024)上进行评估,以探究模型的时间理解和记忆能力。最后,报告使用 MVBench (Li et al., 2024c) 和 TVBench (Cores et al., 2024) 的一般理解能力结果,MVBench 偏向于单帧外观特征 (Krojer et al., 2024; Cores et al., 2024),而 TVBench 在文献中被提出作为一般和时间理解的替代方案,可以减轻这些偏差。

视觉指令调整。为了评估 V-JEPA 2 在视觉问答任务上的表示,用 LLaVA 框架中的视觉指令调整程序 (Liu et al., 2024a) 将 V-JEPA 2 与 LLM 对齐。此过程涉及使用可学习的投影器模块(通常是 MLP)将视觉编码器输出(或视觉 token)转换为 LLM 输入。按照 Liu et al. (2024b) 的方法,通过渐进的三阶段过程训练 MLLM:第一阶段,仅使用图像字幕数据训练投影器;第二阶段,用大规模图像问答系统训练完整模型;第三阶段,进一步使用大规模视频字幕和问答系统训练模型。通过这种分阶段的训练方法,LLM 逐步提升了对视觉 token 的理解。视觉编码器可以与 MLLM 的其他部分一起冻结或微调。探索这两种设置,因为冻结视觉编码器可以提供关于视觉特征质量的更清晰的信号,而微调视觉编码器则可以获得更好的整体性能。

Logo

更多推荐