logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

iDP3的Learning代码解析:逐步分解iDP3的数据集、模型、动作预测策略代码(包含2D和3D两个版本)

前言今25年1.14日起,我和同事孙老师连续出差苏州、无锡、南京、上海我们连连感慨,绝大部分工厂都将在今2025年开始做一系列智能升级、智能改造,包括且不限于线缆插拔、智能装配、打螺钉,而背后用的策略方法,也将从传统的深度学习方法,往大模型+模仿学习RL方面迁移,这是一股势不可挡的浪潮本想着​这几天出差完后把ipd3的源码也做下解读,想了下,只要有时间空闲,我便开始解读吧,于此,今天便有了本文。

文章图片
Manual2Skill——让VLM从装配手册中提取装配步骤,随后做姿态估计,最终完成IKEA家具的自动组装(含IKEA-Manuals的详解)

Manual2Skill:基于视觉语言模型的家具自动装配框架 摘要:新加坡国立大学等机构提出的Manual2Skill框架,通过视觉语言模型(VLM)理解家具装配手册,实现自主机器人装配。该框架首先利用GPT-4o解析手册中的抽象示意图,生成分层装配图;然后结合部件点云和手册图像预测6D装配位姿;最后通过运动规划生成无碰撞装配轨迹。实验表明,该方法能有效处理复杂的长时序装配任务,显著减少对示范数据

文章图片
WALL-OSS——点燃QwenVL 2.5在具身空间中的潜力:VL FFN可预测子任务及离散动作token,Action FNN则预测连续动作

本文介绍了WALL-OSS这一新型视觉-语言-动作(VLA)基础模型及其训练方案。该模型通过紧密耦合的MoE架构和两阶段训练策略(先启发后集成),有效解决了VLM在具身智能中面临的三大挑战:模态差异、预训练分布差异和训练目标差异。WALL-OSS采用统一的Uni-CoT方案,实现从高层语义到细粒度动作的端到端映射,相比传统流水线设计减少了误差累积。模型基于QwenVL2.5-3B构建,通过具身VQ

文章图片
HEAD——视觉驱动下的自主配送:高层规划器发出手部和眼部的目标位置与朝向指令,低层全身控制策略则执行导航与抓取

斯坦福研究者提出HEAD系统,实现人形机器人自主导航与触达功能。该系统采用模块化设计,高层策略负责视觉导航和手眼协调,低层控制器基于模仿学习实现全身运动控制。创新性地结合大规模人类数据与少量机器人数据训练,通过GAN强化学习方法解决动作模仿挑战,并采用域随机化增强系统鲁棒性。该工作首次实现人形机器人基于自我中心视觉的端到端导航与触达能力,为类人机器人应用提供了新思路。

文章图片
HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散

如上一篇文章所说,在叠衣服的过程中,我会带着团队对比各种模型、方法、策略,毕竟针对各个场景始终寻找更优的解决方案,是我个人和我司的职责之一且个人认为,如果只是单纯针对叠衣服这个任务,个人认为还是VLA会表现的更好些加之我其实很早就关注到了HybridVLA,只是一直没来得及解读它故本文便来解读这个HybridVLA

文章图片
CLONE——面向长时任务的闭环VR全身遥操:其MoE架构可实现“蹲着走”,且LiDAR里程计解决位置偏差,更增强AMASS数据集

为了历练新同事们,我给所有的新同事们分为了三个项目组(长沙及各地原有的老同事们 则继续之前的客户订单项目)第一组 通过RL(uc伯克利hil-serl) 实现电源插拔第二组 通过lerobot act/pi0,和VLA openpi 实现USB插拔第三组 在弄人形,这两天搞的过程中 发现缺一些设备,所以下周到位后 正式开搞G1 edu版以上的前两个组偏机械臂,大伙每天都在全力加速前进,而人形测 我

文章图片
Being-0——集操作、导航、运动为一体的机器人Agent框架:GPT4o高层感知并推理规划、低层VLM导航适配,最终执行技能库

为了实现让类人机器人自主执行类似人类任务的最终目标当前的研究主要集中在改进单项技能上,包括运动能力locomotion(Radosavovic等,2024;Zhuang等,2024)、双手操作manipulation(Ze等,2024a;Li等,2024a;Zhou等,2024)以及全身控制whole-bodycontrol(He等,2024a;Fu等,2024a)最近的研究(Firoozi等,2

文章图片
WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调

毕竟未来一两月,我司长沙分部的规划是对于机械臂,考虑IL + RL结合下的方法,继续优化USB插拔、电源插拔等各种插拔场景对于人形,继续unitree_IL_lerobot,以及全身遥操、跳舞、展厅讲解针对各种插拔场景,7.4日下午,我司长沙分部同事文弱发我了一个介绍WSRL的X链接,我一看,挺不错,很有价值,也很有意义,后续准备试下,故本文先解读下一为指导将来的实践,二为分享,与更多有志于在线R

文章图片
RaC——挂衬衫且打包外卖盒:如果机器人将失败,则人类让其先回退后纠正,以减缓IL中的误差累积(让数据的增长对任务促进的效率更高)

《RaC:通过恢复与纠正扩展机器人长时任务学习能力》摘要 CMU研究者提出RaC训练范式,针对模仿学习在长时任务中的局限性。该方法在预训练基础上引入人类干预数据收集:当策略即将失败时,操作员首先回滚机器人至安全状态,再提供纠正片段。这种结构化干预包含两种关键行为:(1)恢复至分布内状态;(2)执行子任务纠正。实验表明,RaC能显著提升策略鲁棒性,在接触丰富的灵巧操作任务中实现10倍效率提升。该方法

文章图片
Galaxea G0——类似Hi Robot的「VLM高层推理 + VLA低层执行」:子任务标注数据训练前者VLM,且三阶段训练后者VLA

摘要:本文系统解读了星海图提出的G0双系统VLA模型及其配套的Galaxea开放世界数据集。G0采用双系统架构:系统2(G0-VLM)负责多模态规划,系统1(G0-VLA)执行精确动作操作。配套数据集包含500小时真实场景数据,覆盖50个场景150项任务,采用统一机器人实体采集确保一致性。研究提出了三阶段训练课程,并通过实验验证了单一实体预训练的重要性。与现有模型(如π0.5)相比,G0在开放世界

文章图片
    共 438 条
  • 1
  • 2
  • 3
  • 44
  • 请选择