logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

为什么扩散策略在操作任务上表现良好,很难与在线RL结合?

该综述不仅构建了 Online DPRL 的理论体系与分类标准,更通过统一基准的实证分析,揭示了不同算法的核心 trade-off(样本效率 vs 扩展性、性能 vs 泛化性)。其提出的分类框架、五大评估维度与算法选择指南,为机器人学习研究者提供了清晰的技术路线图,推动扩散策略从实验室演示走向真实世界的规模化应用,加速通用自主机器人的落地进程。

文章图片
AAAI 2026 Oral | 机器人也能“看人学活”?一次示范就能学会新任务!

复旦大学团队提出Human2Robot框架,通过精准同步的人机视频数据集H&R(2600段VR操控视频)和条件视频生成方法,实现了机器人从人类示范中学习细粒度动作。该方法采用视频预测模型提取隐式动力学表征,结合解耦动作解码器,在真实任务中展现出优异的单样本泛化能力,能够处理新位置、新物体甚至全新任务类别。实验表明,该框架在已见任务上成功率领先基线10-20%,并能有效适应六类泛化场景,突破

文章图片
#机器人
复旦&港大等团队!WholeBodyVLA:面向全身移动操作控制的VLA框架

本文提出WholeBodyVLA框架,解决人形机器人移动-操作任务中的关键挑战。针对现有方法在操作感知型移动方面的不足,该框架采用统一latent学习从低成本人类视频中获取移动-操作知识,并设计面向移动-操作的强化学习策略(LMO)实现精确控制。通过分离训练操作和移动的latent动作模型(LAM),再联合监督视觉语言动作(VLA)模型,系统能够端到端执行大范围任务。实验表明,该方法在AgiBot

文章图片
具身基座模型的曙光初现,全球最强跨本体VLA来啦!

在竞争日趋白热化的具身智能领域,各大企业纷纷聚焦于有限的本体市场。本体出货量的高低,不仅决定了自身数据的积累规模,更从根本上框定了基于该本体开发的算法性能上限——用户基数越大,本体在真实场景中的综合表现往往就越强,形成一种近乎“马太效应”的商业闭环。然而,这一看似稳固的行业逻辑,正被一款名为 Being‑H0.5 的模型悄然打破。通过整合当前全球几乎所有主流机器人构型的数据,该模型在视觉‑语言‑动

文章图片
具身基座模型的曙光初现,全球最强跨本体VLA来啦!

在竞争日趋白热化的具身智能领域,各大企业纷纷聚焦于有限的本体市场。本体出货量的高低,不仅决定了自身数据的积累规模,更从根本上框定了基于该本体开发的算法性能上限——用户基数越大,本体在真实场景中的综合表现往往就越强,形成一种近乎“马太效应”的商业闭环。然而,这一看似稳固的行业逻辑,正被一款名为 Being‑H0.5 的模型悄然打破。通过整合当前全球几乎所有主流机器人构型的数据,该模型在视觉‑语言‑动

文章图片
你的模型真的能打吗?上交发布了近百项场景的GM-100,操作任务的长尾场景评测来了

GM-100包含100项精心设计的任务,涵盖各类交互场景与长尾行为,旨在提供一组多样化且具有挑战性的任务集合,全面评估机器人智能体的能力,并推动机器人数据集任务设计向多样化与复杂化方向发展。GM-100包含100项精心设计的任务,涵盖各类交互场景与长尾行为,旨在提供一组多样化且具有挑战性的任务集合,全面评估机器人智能体的能力,并推动机器人数据集任务设计向多样化与复杂化方向发展。然而,这些方法往往缺

文章图片
你的模型真的能打吗?上交发布了近百项场景的GM-100,操作任务的长尾场景评测来了

GM-100包含100项精心设计的任务,涵盖各类交互场景与长尾行为,旨在提供一组多样化且具有挑战性的任务集合,全面评估机器人智能体的能力,并推动机器人数据集任务设计向多样化与复杂化方向发展。GM-100包含100项精心设计的任务,涵盖各类交互场景与长尾行为,旨在提供一组多样化且具有挑战性的任务集合,全面评估机器人智能体的能力,并推动机器人数据集任务设计向多样化与复杂化方向发展。然而,这些方法往往缺

文章图片
普林斯顿近300篇工作的综述,这一领域是如何为具身提供低成本的训练和测试方案的?

视频生成模型通过高保真时空建模,解决了机器人领域数据稀缺、仿真不准、评估昂贵等核心痛点,其四大应用场景已覆盖政策学习、评估与规划的全流程。未来落地的关键在于:平衡性能与成本,突破长视频生成、物理一致性等技术瓶颈;构建机器人专用的评估体系与安全机制;推动跨平台迁移与实时部署能力提升。该技术的成熟将加速通用自主机器人的发展,尤其在工业操纵、服务机器人等安全关键场景实现规模化应用。

文章图片
AAAI 2026最新!OC-VLA:解决感知与动作的错位问题,以观测视角为中心的VLA范式

我们提出了一种以观察为中心的VLA模型Observation-Centric VLA(OC-VLA)。这是一个简单而有效的框架,它将动作预测基于相机坐标系,从而解决了现有视觉语言动作模型中感知与动作之间的空间错位问题。OC-VLA 不会增加额外的架构开销,并且可以与现有流程无缝集成。大量的实验表明,OC-VLA 显著提高了跨视角泛化能力,并增强了在视角变化下的鲁棒性,展现了 OC-VLA 的实用价

文章图片
AAAI 2026最新!OC-VLA:解决感知与动作的错位问题,以观测视角为中心的VLA范式

我们提出了一种以观察为中心的VLA模型Observation-Centric VLA(OC-VLA)。这是一个简单而有效的框架,它将动作预测基于相机坐标系,从而解决了现有视觉语言动作模型中感知与动作之间的空间错位问题。OC-VLA 不会增加额外的架构开销,并且可以与现有流程无缝集成。大量的实验表明,OC-VLA 显著提高了跨视角泛化能力,并增强了在视角变化下的鲁棒性,展现了 OC-VLA 的实用价

文章图片
    共 145 条
  • 1
  • 2
  • 3
  • 15
  • 请选择