论文信息

团队:清华大学人工智能产业研究院AIR + 上海AI lab
时间:2025年

问题背景

  1. 跨本体的适配性。不同本体采用的数据存在异构性,即机器人构型不同(单机械臂,双机械臂等),模态不同(相机,雷达),安装视角不同等。其次是数据分布不同,比如同样的指令,单机械臂和多机械臂的操作方式不一定相同。
  2. 可扩展性。当遇到新的机器人时,原有的方法是需要收集大量相应的数据,然后新增一个解码头decoder head进行训练。这个过程涉及到主干网络的重训,cost很大。

解决方法

  1. soft prompt。给每个机器人一个身份信息,即soft prompt,本质上是可学习的嵌入(learnable embedding),把这个信息拼接到图像等信息之后,注入到模型中,作为模型识别这是哪个模型的数据用,从而调节模型的输出分布。
  2. 当新增一个机器人时,只需要给定其soft prompt,然后用LoRA微调1%(大约9M)的参数量即可。由于不需要重训主干网络,所以非常适合扩展。

该方法其实是对NLP领域的知识迁移:

在 NLP 领域,最近比较火热的研究方向是参数高效微调(Parameter-Efficient Fine-tuning,PEFT),其中一个研究方向是软提示学习(Soft Prompt Learning)

因为针对目前已经训练好的大模型,需要使其适配到不同的垂类场景中。如果采用普通微调的方式,会针对所有参数进行调整,cost很大,而且分布变了之后可能会造成灾难性遗忘;其次数据量很少的话,会导致过拟合。因此提出了软提示学习的方式,在部署垂类应用时,只需要在本地存储很少量的soft prompt即可。

研究表明:只需训练少量 prompt 向量,就能让冻结的 LLM 适应新任务

X-VLA 将这一思想迁移到具身智能体领域,把“任务类型”换成了“机器人身份”,同样奏效。

输出

输出末端执行的轨迹(每个轨迹点包含x/y/z的位置信息和角度信息)以及是否抓取。

轨迹在下游通过IK等方式解决。

实验效果

6个仿真环境和3个真机环境实验,整体达到SOTA。注意并非每个都是第一。

重要意义

将NLP领域的Soft Prompt Learning思想借鉴到机器人中,虽然不是架构创新(比如Transformer),但是能够以高效的方式解决机器人领域最关注的可扩展性问题,确实具备重要意义。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐