Long-VLA：释放机器人长范围操作视觉-语言-动作模型的能力

25年8月来自西湖大学、浙大、西安交大、未来区块链和隐私计算北京高精尖创新中心和电子科技大学（成都）的论文“Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation”。视觉-语言-动作 (VLA) 模型已成为机器人策略学习的基石，利用大规模多模态数据实现稳健

硅谷秋水

821人浏览 · 2025-09-03 00:15:00

硅谷秋水 · 2025-09-03 00:15:00 发布

25年8月来自西湖大学、浙大、西安交大、未来区块链和隐私计算北京高精尖创新中心和电子科技大学（成都）的论文“Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation”。

视觉-语言-动作 (VLA) 模型已成为机器人策略学习的基石，利用大规模多模态数据实现稳健且可扩展的控制。然而，现有的 VLA 框架主要处理短范围任务，由于技能链和子任务依赖性方面的挑战，其在长范围、多步骤机器人操作方面的有效性仍然有限。本研究推出 Long-WLA，一个专为长范围机器人任务设计的端到端 VLA 模型。该方法采用了一种相位-觉察的输入掩码策略，该策略可以自适应地将每个子任务划分为移动和交互阶段，使模型能够专注于与相位相关的感官线索，并增强子任务兼容性。这种统一的策略保留 VLA 训练的可扩展性和数据效率，并且与架构无关的模块可以无缝集成到现有的 VLA 模型中。进一步提出 L-CALVIN 基准，系统地评估长范围机器人操作。

技能链挑战如图所示：（a）CALVIN 基准测试中状态不匹配等技能链挑战的图示。在独立设置中，每个子任务都从训练分布中的一个状态开始。在连续设置中，子任务按顺序执行，这可能会导致分布偏移。（b）单个子任务的性能下降表明状态不匹配的潜影响。（c）验证状态不匹配（例如位置差异）在不同任务之间的影响。

请添加图片描述
视觉-语言-动作模型。视觉-语言-动作 (VLA) 模型 [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36] 整合了视觉感知、语言理解和机器人动作生成，从而能够根据多模态输入实现自主控制。它们代表一种学习通用策略的有前途范例，这主要得益于在日益庞大和多样化的机器人学习数据集上进行预训练 [37, 38, 39, 40]。然而，现有的 VLA 模型是为短范围任务设计的，这些任务的语义和动作空间相对有限且结构良好。这使得它们在推广到长范围场景的能力方面存在差距。

长范围机器人操控。长范围操控通常通过分解 [41、42、43、44、45、46、47、48、49] 来实现，其中复杂任务被分解为子任务，每个子目标都有单独的局部策略进行优化。然而，这种模块化方法缺乏对子任务之间转换和依赖关系的明确建模，导致了技能链挑战 [18、50]，其中跨阶段的动态耦合和错误传播会降低整体性能。为了解决这个问题，最近的工作主要集中在两个方向 [20、21、22、19、3、23、24]：(1) 在线自适应优化，通过在线微调和反复试验策略（例如实时校正 [21] 或奖励调整 [22、51]）解决执行过程中的错误传播； (2) 最小化训练-测试差距，旨在减少训练和部署之间的差异，从而提高鲁棒性。一个代表性的例子是 Plan-Seq-Learn [3]，它使用不同的输入模态将运动规划和执行解耦，以减轻技能链效应。

VLA 模型中的长范围机器人操作。近期的方法，如 Dex-VLA [17] 和 π0 [16]，将任务分解引入 VLA 框架，利用 LLM 降低学习复杂度来简化子任务执行。然而，目前的 VLA 方法尚未考虑长范围操作中的技能链。一个关键的挑战是基于奖励的在线方法与 VLA 模型的离线训练范式不兼容，因为在离线范式中通常没有奖励信号。模块化架构将任务拆分成单独的模块，阻碍联合训练，并与 VLA 的端到端范式相矛盾。为了弥补这一差距，致力于在保持可扩展性和数据量的同时，解决长范围任务的技能链挑战。

Long-VLA 是首个专为长范围机器人操控而设计的端到端 VLA 模型。该方法引入一种输入级自适应策略，将每个子任务划分为移动阶段和交互阶段，并应用相位-觉察输入掩码来指导学习。相位-觉察掩码利用移动阶段的第三人称视角和以自我为中心的视角进行精准操控，确保模型专注于与阶段相关的线索，减少表征偏移，并提升技能链。重要的是，该策略保留端到端训练，并允许策略网络以最小的输入变化来利用大规模数据。此外，该方法引入一个可扩展的、与架构无关的模块，可以无缝集成到现有的 VLA 中，而无需改变其核心结构。最后，展示 L-CALVIN，并表明 Long-VLA 在模拟和现实世界的机器人任务中均优于最先进的方法，并且在各种长范围任务中均表现出稳健的性能。

如图所示：与之前的方法相比，(a) 采用统一模型，但仅限于短范围任务，无法解决技能链 (SC) [1]；(b) 使用两个独立的模型将长期任务分解为移动和交互阶段，降低了学习复杂度，但仍然无法解决技能链（SC） [2]；© 在分解的基础上进一步引入自适应输入策略来解决 SC [3]；(d) Long-VLA 是一个专为长范围任务定制的统一模型，并进一步通过掩码结合输入级自适应来有效解决 SC。Long-VLA 凭借稳定的性能和强大的鲁棒性超越之前最先进的方法。

请添加图片描述

VLA 模型定义如图所示：

请添加图片描述

重新审视分解策略

在介绍本文方法之前，首先研究分解对于 VLA 模型是否至关重要。直觉是将每个子任务进一步划分为两个细粒度的阶段：移动阶段和交互阶段。先前的研究 [3] 使用逆运动学 (IK) 来获得精确的运动轨迹，但精确的 3D 目标和实用的 IK 往往不可行。因此，训练一种专门的移动策略来替代 IK。

分解数据收集。为了评估阶段级分解的可行性，在 CALVIN 数据集 [40] 上进行初步研究。从原始轨迹出发，构建了一个名为 L-CALVIN 的新数据集，该数据集将每个任务划分为移动阶段和交互阶段。交互阶段由预训练的 VLA 模型处理，而单独的移动策略则在运动阶段数据上进行训练。提取 [40] 中通过任务检测器标记的 64 帧序列。基于检测的物体和位置，语言指令添加特定于运动的命令。为了确保相位对齐，切分点设置在物体状态变化前 10-15 帧。

分解策略的性能。如表所示，将 MDT [52] 与单独的移动策略相结合可显著提升性能，证明分解策略的有效性。然而，训练两个单独的模型对于可扩展的长范围学习而言并非最优选择。为了解决这一限制，提出 Long-VLA，这是一个统一的端到端 VLA 模型，可以更有效地利用特定于相位的数据。

请添加图片描述

Long-VLA

概述如图所示：

请添加图片描述

训练范式

数据和相位分解。每个带语言注释的轨迹分解为 t = |(s^M_t, a^M_t)t ∈ (0, d], (s^I_t, a^I_t)t ∈ [d + 1, T]]，其中 M 和 Z 分别表示移动和交互阶段，d 是切割点时间步长。为了在统一的端到端 VLA 框架内进行训练和推理，通过添加一维阶段标识符 s 来扩展原始动作表示，该标识符指示当前阶段。最终的动作 token 表示为 [x, y, z, eu_x, eu_y, eu_z, s_g, s_p]，其中 (x, y, z) 是机器人末端执行器的笛卡尔坐标，(eu_x, eu_y, eu_z) 表示其基于欧拉角的方向， s_g 表示夹持器状态（打开或关闭）。阶段标识符 s_p 在移动阶段设置为 -1，在交互阶段设置为 1。在推理过程中，s_p 初始化为 -1。

通过掩码实现输入级自适应策略。在移动阶段，模型应该专注于使用第三人称摄像机视角进行精确的物体导航，因为夹持器摄像机视角在此阶段提供的信息量极小。相反，在交互阶段，注意应该转移到夹持器摄像机，以减轻视觉分布变化并实现精确操控。基于这些观察，提出一种输入级自适应策略，可根据当前任务阶段动态调整视觉输入。为了在不同任务阶段动态调整不同的视觉输入，采用掩码策略，而不是直接移除整个模态。具体而言，每个 token 被分配一个二进制掩码 m ∈ {0,1}，其中 m_i = 1 表示第 i 个 token 参与注意计算，否则 m_i = 0。然后将二进制向量 m 扩展为注意掩码矩阵M ∈ {0,1}，每个元素定义为：M_ij = m_i * m_j。这确保了注意力仅在活跃的 token 对之间计算。给定 Q-K 相似度矩阵 P，计算公式为 P = QK^T/©^0.5，然后计算掩码注意权重 A。

通过应用这种掩码策略，模型可以在注意计算过程中选择性地关注相关 token，而无需改变输入结构，从而在适应不同任务阶段的同时保持模态一致性。

训练损失。对于动作生成，采用条件扩散模型来生成。使用分解数据集，采取单个分数匹配损失 L_diff，对模型进行训练，该损失同时监督移动阶段和交互阶段。

为了确保视觉目标在语义上与语言指令一致，采用 InfoNCE 损失 L_goal。最终的损失是 L_diff 和 L_goal 之和。

模型架构

Long-VLA 策略 π_θ(a^t |s^t, d^t, g) 预测基于当前观测 s*^t、与 s^t 相关的检测输入 d^t 以及潜目标 g（其中 t 表示时间步长）的动作 a^t。

观测编码器。观测 s^t 包含抓取器相机视图和静态相机视图 S^t_g，它们分别通过可训练的 ResNet-18 编码器嵌入到 e_g 和 e_b 中 [53]。
目标编码器。为了利用未标记的游戏数据，采用与 [52] 类似的策略，在没有语言指令的情况下，将未来观测 s^t+n 用作视觉目标，并在语言注释可用时将其用作目标。两种类型的目标均使用冻结 CLIP 模型 [54] 的文本和图像编码器进行编码，分别生成 e^l_goal 和 e^o_goal。

检测集成。为了支持动态场景中的精确物体导航和交互整合额外的检测信息。具体而言，在 CALVIN 数据集的子集上结合 LoRA [56] 对 Grounding DINO [55] 进行了微调，以实现可靠的细粒度物体定位。模型 f_d 根据语言查询条件，从第三人称图像中预测像素级边框。这些边框使用可训练的位置编码器投影到潜空间，以获得检测特征 e_z。然后，通过 FiLM 策略 [57] 使用 e_g 调制静态相机特征，从而生成检测增强表示 e^_b。

多模态编码器。模型中的多模态编码器基于 GPT-2 风格的 Transformer 架构。输入 e_pre 定义为 [e^_b; e_g; e_goal; e_d]，它将所有模态特征连接起来，并将它们编码为潜感知 token e_post。

动作解码器。采用条件扩散模型生成动作 a;，通过逐步去除高斯噪声，并使用 DDIM 采样实现逆过程。通过扩散模型解码后，输出通过带有 GELU 激活函数的双层 MLP 映射到动作向量。

模拟与真实世界实验。选择 CALVIN 作为模拟平台，因为它专注于长范围任务。此外，还引入 L-CALVIN，这是一个新的基准测试集，它基于 CALVIN 的数据协议将任务序列从 5 步扩展到 10 步。此外，设计两个真实世界任务：(1) 按顺序将积木放入碗中（序列长度为 8）；以及 (2) 复杂的厨房清洁任务（序列长度为 4）。第一个任务强调较长的时间依赖性，而第二个任务则评估复杂的动作执行。这种设置可以全面评估长范围性能。

请添加图片描述

基础策略和其他基线。在模拟和现实环境中，选择 MDT [52] 作为基础策略。这一选择主要源于 MDT 强大的多模态输入处理能力，这在 CALVIN 环境中的表现已得到充分证明。在现实环境中，MDT 的数据效率进一步支持了这一决策，尤其是它能够利用未标记的域内数据（即使在没有文本标注的情况下）来提升模型性能。此外，还纳入几个基线以更全面地评估方法的有效性：基于视频生成的 VLA 模型（GR-1 [58] 和 UP-VLA [59]）以及基于 VLM 的 VLA 模型（RoboVLM [60]、VLAS [31] 和 OpenVLA [1]）。由于 π0 [16] 未在 CALVIN 环境中进行评估，因此在现实实验中将其用作基线。