logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

纯血VLA综述来啦!从VLM到扩散,再到强化学习方案

机器人学长期以来一直是科学研究中的重要领域。早期的机器人主要依赖预编程的指令和人工设计的控制策略来完成任务分解与执行。这类方法通常应用于简单、重复性的任务,例如工厂流水线和物流分拣。近年来,人工智能的快速发展使研究者能够在图像、文本和点云等多模态数据中,利用深度学习的特征提取与轨迹预测能力。通过结合感知、检测、跟踪和定位等技术,研究者将机器人任务分解为多个阶段,以满足执行需求,从而推动了具身智能与

文章图片
【无标题】

论文时间:2025论文链接:https://arxiv.org/abs/2505.08243机器人思维链推理(CoT)—— 即模型在选择动作前预测有用的中间表征 —— 为提升机器人策略(尤其是视觉 - 语言 - 动作模型,VLAs)的泛化能力与性能提供了有效方法。尽管此类方法已被证明能提升性能与泛化能力,但它们存在核心局限性:需专用机器人推理数据,且推理速度较慢。为设计可解决这些问题的新型机器人推

文章图片
统一高效VLA+RL训练平台RLinf-VLA!

如图2所示,VLA+RL训练流程可以分为2个部分(Rollout 和 Training),其中涉及3个三个组件:分别是红色的 Simulator(仿真器)、蓝色的 Generation(模型生成)、黄色的 Training(模型训练)。其中在 Rollout 阶段,Simulator 和 Generation 多步交互,对资源调度提出新挑战。具体而言,不同的仿真器所占用的资源是不同的。

文章图片
史上最全robot manipulation综述,多达1200篇!西交,港科广,北大等八家机构联合发布

近年来,随着计算机视觉、自然语言处理以及大规模多模态模型的迅速发展,具身智能(Embodied Intelligence)取得了显著进展。在众多关键挑战中,机器人操作(Robot Manipulation)作为具身智能的核心问题之一,因其对感知、规划与控制的无缝整合要求而显得尤为复杂与基础——它决定了智能体能否在多样且非结构化的环境中实现真实交互。本综述系统梳理了机器人操作领域的整体格局,涵盖基础

文章图片
史上最全robot manipulation综述,多达1200篇!西交,港科广,北大等八家机构联合发布

近年来,随着计算机视觉、自然语言处理以及大规模多模态模型的迅速发展,具身智能(Embodied Intelligence)取得了显著进展。在众多关键挑战中,机器人操作(Robot Manipulation)作为具身智能的核心问题之一,因其对感知、规划与控制的无缝整合要求而显得尤为复杂与基础——它决定了智能体能否在多样且非结构化的环境中实现真实交互。本综述系统梳理了机器人操作领域的整体格局,涵盖基础

文章图片
Google最新!Gemini Robotics 1.5:通用机器人领域的突破进展

Google DeepMind 发布的《Gemini Robotics 1.5.pdf》系统呈现了通用机器人领域的突破性进展,该系列包含与两大核心模型。通过 “思考 - 动作融合”“跨形态运动迁移”“嵌入式推理升级” 三大创新,结合 “协调器 + 动作模型” 的智能体架构,实现了机器人 “感知 - 思考 - 行动” 的闭环,为复杂多步骤物理任务解决提供了全新路径。以下结合报告关键图表,从技术架构、

文章图片
#机器人
原力灵机提出ManiAgent!会 “动手”,会 “思考”,还会“采数据”!

ManiAgent场景感知智能体:以场景图像和用户提供的指令作为输入,调用视觉语言模型(VLM)生成与任务相关的场景描述,为后续任务处理提供环境信息基础。推理智能体:接收感知智能体输出的场景描述与初始任务指令,通过查询**大型语言模型(LLM)**对当前任务状态进行评估,提出明确可以完成的子任务。物品级别感知智能体:在子任务执行过程中,感知智能体采用目标检测方法,精准识别场景中的目标物体,并提取其

文章图片
你的VLA太慢了!?算力不够也能提速:这篇综述教你打造高效VLA新范式

本综述从系统视角出发,围绕模型架构、感知特征、动作生成与训练推理四个核心维度,对高效VLA的主要研究进展进行了结构化梳理与比较。作者认为,提升VLA的效率不仅是实现模型压缩和加速的技术问题,更是推动具身智能系统从受控实验环境向复杂真实场景落地的关键因素。通过提供开源论文清单与分类索引,本综述旨在为研究者和工程师提供一份面向效率优化的参考资源,支持高效VLA技术的持续发展与应用。完整论文及相关资源可

文章图片
智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人

本文的主要作者来自悉尼大学、哈尔滨工业大学、香港科技大学、上海交通大学和北京智源人工智能研究院。本文的第一作者为即将入学悉尼大学的博士生李哲,主要研究方向为具身智能和3D数字人。本文的共一作者兼项目负责人为北京智源人工智能研究院研究员迟程。本文的通讯作者为北京大学计算机学院研究员、助理教授仉尚航和悉尼大学副教授徐畅。

文章图片
#机器人
VLA集体翻车?复旦&创智邱锡鹏教授团队提出LIBERO-Plus,揭示VLA脆弱性真相

LIBERO-Plus 首次系统性、细粒度地揭示了当前 VLA 模型在视觉理解、语言交互、组合泛化等方面的鲁棒性缺陷。研究发现,当前大多数 VLA 模型在泛化时仍显脆弱,尤其对相机视角与初始位姿变化表现出高度敏感性;一些模型几乎忽视了语言指令;部分模型仅依赖轨迹记忆而非视觉反馈执行任务;组合扰动会对模型能力产生负向干扰。我们呼吁社区不应再盲目追求“刷榜”,而应关注模型在真实多变环境下的稳定性,推动

文章图片
    共 143 条
  • 1
  • 2
  • 3
  • 15
  • 请选择