第七章（三）VLA

小知识：字母"B"通常代表“Billion”，即“十亿”。这是模型训练中所使用到参数的数量。例如，GPT-3模型有175B个参数，这里的“175B”就是表示该模型有1750亿个参数。一般情况下，参数越多，代表模型训练的越复杂，模型的能力也就越强。通常1B，意味着需要1G以上的内存，7B需要8G以上的内存才能成功运行大模型。

明码

934人浏览 · 2025-11-04 17:38:51

明码 · 2025-11-04 17:38:51 发布

VLA

可以区分为VLM/LLM加上策略方式和VLA直接输出方式
在这里插入图片描述

RDT

挑战：机器人数据的不稳定性，机器人数据的非线性特征。

解决数据的异构性

通过引入了一个物理可解释的统一动作空间，以统一不同机器人的动作表示，同时保留原始动作的物理意义，促进模型学习跨不同机器人数据集的可转移物理知识。
编码方式如下：
在这里插入图片描述
本体感知zt,将所有机器人的动作嵌入到一个128维度的统一工作空间。

构建了一个统一的动作空间之后，便可以在异构多机器人数据上进行训练。
通过一个共享的MLP进行编码，有趣的是，这里还将控制频率作为模型输入，希望模型推理的时候能够考虑到频率的变化。
cat后的长度为Ta+1(zt)+1©+1(k)

第二种输入为图像输入，对应高维输入，采用图像-文本对齐的预训练视觉编码器：SigLIP。
为了增强模型根据视角和时间步区分图像的能力，将正弦位置嵌入扩展到多维网络。
第三种模态文本输入采用预训练的T5-XXL

Training

推理频率能够到达381Hz, 不过需要看设定的chunk_size和设备。
在这里插入图片描述
微调相对于预训练的数据量大大减少，6000条轨迹，0.6%的量级，3天的训练130K个step.
action chunk size 64, 6Hz，推理能到达384hz=64*6。

code

在这里插入图片描述
基于Transformer cross attention 搭建，将扩散过程中的U-Net 换成ViT(2D图像生成，带文本条件融合)，作者做了三个修改：
1.交替条件注入(即Alternating Condition Injection，简称ACI)：图像和语言token，而非同时注入两者，因为图像的维度远高于文本信息，同时注入往往会淹没文本信息，削弱模型对具体指令的遵循能力。
2.MLP解码器，解决机器人数据的非线性特征：采用非线性MLP解码器作为从潜在空间回到物理空间的投影，机器人动作符合非线性动力学规律。有效提升精细灵巧操作
3. 添加QKNorm和RMSNorm,解决机器人数据不稳定问题。机器人物理量的不稳定会导致梯度不稳定和数值溢出等问题

机器人数据中往往会出现极端值。这种极端值可能导致梯度不稳定和数值溢出等问题

在这里插入图片描述

推理阶段

在这里插入图片描述
使用ROS与底层交互

pi0

与DP学习每个去噪过程的条件分布不同的事
流匹配直接对数据和噪声分布之间的映射场（vector field)进行建模，训练目标是建模这个匹配的过程，也就是获得映射场函数

不直接预测动作，而是学习一个如何将简单分布（如高斯噪声）“塑造”成复杂动作分布的过程。
详细可以看：流匹配动作生成
 https://blog.csdn.net/v_JULY_v/article/details/136318383

模型

基础模型大小 2.6B 使用pre-trained VLM;
470M视觉小模型，non-VLM

使用模型：paliGemma ( visoion siglip (400M)＋Gemma(2.6B))模型*

语言： Gemma’s SentencePicece tokenizer

动作：

使用flow match和动作专家
50步动作分块

Transformer

PaliGemma
MOE 和分块因果注意力掩码

高层策略会将任务分解成子任务，使用高级视觉语言模型来进行这些语义推理

MOE

分块因果掩码的使用使得视觉语言模型（VLM）块只关注自身，本体感觉（与动作共享权重）也只关注自身。
在这里插入图片描述

训练

VLM Pretraining
使用2.6B 预训练模型 Gemma

预训练

9.1% 包括Open-X modified 等开源数据集
来自私有数据集的 903M个时间步长的数据（1M=1000000）
• 其中 106M个来自单臂机器人
• 797M个来自双臂机器人
• 若频率为 10 赫兹，约相当于 25000 小时的数据
实际上是超过 10000 小时的数据

微调

针对不同的任务需要不同的数据集

对于简单任务 5小时数据
复杂的任务需要100小时甚至更多时长的数据集

推理

对于20HZ UR5和Franka机械臂，每0.8s推理一次,使用16个action
对于其他运行在50Hz的机械臂，运行0.5s推理 ,25个action

实验评价

和openvla和octo比较
在这里插入图片描述

同openvla,octo ,act和DP在微调上的对比
在这里插入图片描述

消融实验

pi0和 high-level saycan结合，通过任务分解，能够有效提升，但是对于pi0-small提升不大。
在这里插入图片描述

在这里插入图片描述

code

官方版本和pytorch版本，9月份的时候官方也开源了pytorch版本，可以看readme

https://github.com/Physical-Intelligence/openpi
https://github.com/allenzren/open-pi-zero

paliGemma如何做分块因果注意力：
自回归过程
在这里插入图片描述

代码模型

在这里插入图片描述

Summary

PI0 and RDT and OpenVLA

编码形式：Token–Transformer-decoder
Tokens(vision, text, low-dimension input)
在这里插入图片描述

在这里插入图片描述

VLA（Vision-Language-Action）模型在动作生成方面主要采用四种核心范式，每种范式都有其独特的设计理念和技术特点：

One-Step-Continuous-Action Models（一步连续动作模型）
核心思想：将Transformer生成的token通过多层感知器（MLP）直接映射为连续动作值。
技术特点：

采用L2或L1损失进行训练，对于二元输出使用二元交叉熵损失
MLP解码器可以替换为LSTM整合时序上下文，或使用高斯混合模型（GMM）对动作空间随机性建模
非自回归变体通常采用池化操作将多个token压缩为单个动作表征
代表模型：OpenVLA-OFT等，研究表明L1损失可能带来更优的性能

Interleaved-Continuous-Action-Models（交错连续动作模型）
核心思想：在VLM主干上并联或串联扩散模型作为动作生成插件，实现连续动作的平滑生成。
技术特点：

利用扩散模型直接对连续动作块进行建模，一次预测多个动作
减少累积误差并增强时序一致性
能够从相同的观察中产生多个有效的轨迹
代表模型：π₀引入流匹配模型，在原有VLM主干上并联参数充当去噪网络；DexVLA直接将扩散动作策略头串联在VLA主干之后

One-Step-Discrete-Action-Models（一步离散动作模型）
核心思想：通过分箱（binning）将动作空间每个维度离散化为多个分箱，每个分箱ID被视为离散token。
技术特点：

最常用的动作表征方法，通常使用256个分箱
采用交叉熵损失进行训练，与LLMs类似的自回归解码方式
标准分箱方法的缺点是token长度增加，可能限制控制频率
代表模型：RT-2直接输出数值token作为动作；OpenVLA在词汇表中预留256个频率最低的token用于动作表征

Policy-Head-Continuous-Action-Models（策略头连续动作模型）
核心思想：将动作生成视为条件去噪过程，通过扩散或流匹配技术生成连续动作。
技术特点：

以非自回归方式生成动作，实现更平滑且可扩展的控制
能够对不同的动作分布进行建模
几何感知方法将SE(3)约束嵌入到扩散中，扩展到欧几里德空间之外
代表模型：Octo和π₀等，这些模型已成为VLA中生成连续动作的主要方法

Finding in VLA Design

在这里插入图片描述
为什么需要 VLAs？ 基于预训练VLMs构建的VLAs已被证明对于通用的机器人策略既有效又高效。此外，预训练的VLMs在泛化能力和数据效率方面表现出显著的优势，使其非常适合现实世界的机器人应用。

**哪个VLM骨干网络更适合VLAs?**对8个不同的VLM骨干研究显示，KosMos 和Paligemma ，其性能明显优于其他骨干。这说明全面的视觉-语言预训练对于实现优越的VLA性能至关重要。

如何构建VLA
研究表明：连续点动作优于自回归离散动作，同时整合历史上下文对于提高性能和解决部分可观测性相当重要；
对于模型架构，直接与策略头集成的VLMs优于其他方案，为什么？视觉语言token以其原始的预训练格式进行处理，并添加策略头整合过去的视觉和本体感受观测结果，从而能够有效一致地进行决策。

何时应用跨机器人数据集？
使用跨机器人数据进行预训练并不能一致地带来最终性能的显著提升。

ref

Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications

Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models

RoboVLMs，基于VLM构建VLA模型的消融研究

https://blog.csdn.net/v_JULY_v/article/details/136318383

北京朝阳AI社区

更多推荐

【HCIA-AIV4.0】题库+解析（一）

本文摘要：本文主要围绕人工智能基础知识展开，涵盖计算机视觉、机器学习、深度学习框架等多个方面。内容包括计算机视觉应用场景（如语义分割、智能驾驶）、机器学习任务类型（分类、回归）、神经网络结构（LSTM、感知机）、深度学习优化技术（激活函数、梯度处理）等核心概念。同时介绍了主流AI框架（TensorFlow、PyTorch、MindSpore）的特点和应用，以及华为昇腾AI处理器的技术架构。文章还