logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

RDT2——基于UMI 数据实现零样本且跨各本体形态的泛化:先训练VLM、后训练扩散动作专家、最后将将扩散策略蒸馏为一步生成器

本文探讨了视觉-语言-动作(VLA)模型在机器人领域的应用挑战与创新解决方案。当前VLA模型面临泛化能力不足、数据获取成本高、跨平台迁移困难等问题。研究团队提出RDT2模型,基于7B规模的Qwen2.5-VL预训练模型,采用三阶段训练策略:离散动作编码、连续概率建模和高效蒸馏。同时,通过改进UMI硬件系统收集了10,000+小时的多样化真实环境数据。这些创新旨在解决机器人学习中的关键难题,包括数据

文章图片
MetaWorld——分层世界模型:融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验,及基于模型RL的对动态环境的在线自适应

本文提出MetaWorld框架,通过分层世界模型解决人形机器人语义控制与物理执行的鸿沟问题。框架包含:1)语义规划层,利用VLM将任务描述映射为专家策略权重;2)物理执行层,采用TD-MPC2算法进行在线优化。创新性地引入动态专家选择机制,在保持物理可行性的同时实现环境自适应。实验表明,该框架有效弥合了高层语义推理与低层控制之间的差距,显著提升复杂任务的执行能力。

文章图片
DreamZero——同时预测未来视觉状态与动作的世界动作模型:解决当下VLA如果人类不示教则理论强但具体操作不强的弊病,且提升任务泛化、本体泛化

最新的VLA模型在语义泛化方面表现出色,但在新环境中对未见过的物理动作的泛化却举步维艰。而本文要介绍的DreamZero,这是一种建立在预训练视频扩散骨干网络之上的世界动作模型(World Action Model,WAM)与VLA 不同,WAM 通过预测未来的世界状态和动作来学习物理动力学,并将视频作为世界演化方式的稠密表示

文章图片
MetaWorld——分层世界模型:融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验,及基于模型RL的对动态环境的在线自适应

本文提出MetaWorld框架,通过分层世界模型解决人形机器人语义控制与物理执行的鸿沟问题。框架包含:1)语义规划层,利用VLM将任务描述映射为专家策略权重;2)物理执行层,采用TD-MPC2算法进行在线优化。创新性地引入动态专家选择机制,在保持物理可行性的同时实现环境自适应。实验表明,该框架有效弥合了高层语义推理与低层控制之间的差距,显著提升复杂任务的执行能力。

文章图片
GR-RL——首个让机器人系鞋带的VLA:先离线RL训练一个“分布式价值评估器”以做任务进度预测,后数据增强,最后在线RL

摘要:GR-RL提出了一种结合视觉语言动作模型(VLA)与强化学习(RL)的新方法,以解决机器人精细操作中的两大挑战:毫米级精确控制和长时序任务鲁棒性。该方法通过三阶段训练流程:1)利用离线RL筛选优质人类示范数据;2)采用镜像对称性进行数据增强;3)通过在线RL在潜在空间进行结构化探索优化。实验表明,这种混合训练范式显著提升了如穿鞋带等高精度灵巧操作任务的性能,解决了传统VLA策略在训练-部署不

文章图片
程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等20大系列集锦

程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.csdn.net/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...

文章图片
#机器学习#ChatGPT#DeepSeek
iDP3的人形遥操代码分析:数据收集、数据转换到人形机器人VR遥控(含动作重定向)

如此文《》的第三部分开头所说跑iDP3的整个流程分为:数据采集、数据转换、数据预处理,然后做训练、部署、可视化,具体而言,iDP3开源了两个代码仓库,一个是学习,一个是摇操作,其中对于后者,已经在这两篇文章里「」进行了详尽细致的分析,对于前者,则是本文。

文章图片
HumanoidPF——让双足人形无碰撞穿越舱门的视觉-运动策略:基于人工势场APF和混合场景建模的全身RL算法

本文提出HumanoidPF方法,用于解决人形机器人在杂乱室内场景中的无碰撞穿越问题。该方法通过构建人工势场(Humanoid Potential Field)来编码机器人与障碍物的空间关系,为强化学习提供前瞻性指导。HumanoidPF既作为策略的观测信号,又简化了碰撞感知的奖励设计,显著提升了学习效率和泛化能力。作者还提出混合场景生成策略,通过程序化增强真实场景数据来扩展训练难度。实验表明,该

文章图片
InternVLA-A1——面向场景理解、未来状态生成、动作执行的一体化框架:融合VLM的语义理解与世界模型的未来动态预测

InternVLA-A1。该模型采用统一的 Mixture-of-Transformers 架构,协同三个专家模块,分别负责场景理解、视觉前瞻生成和动作执行。这些组件通过统一的掩码自注意力机制实现无缝交互

文章图片
通俗理解卡尔曼滤波(无人驾驶感知融合的经典算法)

前言说来惭愧,我个人也算有近10年AI教育经验,中间获得过一些名号,比如北理工校外导师,微软MVP兼CSDN技术专家,本博客也有1700多万PV了,在AI圈内还是有很高知名度的。后2015年和团队一块创业创办AI职教平台「七月在线」,至今已近7年,这6 7年我们把AI做透了,同行没做的我们做,同行没有的广度我们有,同行不到的深度我们到。六年多来,在专注做成人AI职教的同时,面对过很多行业的刺激,但

文章图片
    共 376 条
  • 1
  • 2
  • 3
  • 38
  • 请选择