
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
原始文章发表在知乎,辛苦移步~最近把hil-serl在lerobot机械臂上跑了一下,网上也没找到其他同学的成功的复现分享,所以笔者一路过关斩将解决问题,在此记录一下,希望对大家也能有所帮助。hil-serl是2024年底的一篇文章,作者罗剑岚目前是智元的首席科学家。整体来看,其实hil-serl的思想挺简单的:传统在在线强化学习采样过程可能是算法驱动的,例如随机探索,这样效率比较低,训练时长会较
最近几天将pi0.5模型训练并在物理lerobot机械臂上跑了一下,过程如下:采数据命令:}’
看到pi0.5后,第一个会想到的是,它与pi0(π0模型前向推理过程详解, π 0模型数据-训练-评测过程)相比的升级点在哪里。它有一个state_proj层,用于将状态向量投影到模型的嵌入空间中,与50维action chunk拼在一起,形成一个51维的embedding,然后在action expert中使用。大概半年前学习过pi0与pi0.5模型,那时候pi0.5还没有开源,现在pi0.5开
在强化训练时候,VLA产生的参考动作,在50%的机率被设置为零(dropout),这样可以避免RL的actor网络“偷懒”的原样copy参考动作。1,pistar0.6简单的来讲是一种"准"在线强化学习方案,它通过多轮的数据收集,通过离线的方式进行训练来模拟一种在线的效果,并且它训练的是整个VLA模型,所以对数据量的要求还是挺高的。这个不用多说,训练时,假如使用消费级显卡,更新一个几百万参数的小模
原始文章发表在知乎,格式会规正一些,可阅读:《近期看了一些强化学习相关的东西,也复现了一些算法,在具身操作场景,目前详细研究过的强化框架有两个:RLinf:是清华出的一个框架,主要应用场景在仿真场景,里面集成了libero/maniskill等仿真环境,openvla-oft/pi0.5等主流vla模型的强化学习应用,ppo/grpo等经典强化学习算法。所以对一些大型VLA模型在仿真场景的强化学习
原文发表在知乎,格式更规正一些,可参考:《近期一直在看一些强化学习相关的算法,所有的出发点其实来源于字节跳动的gr-rl论文(前期写过一篇文章:《关于gr-rl与pi-0.6(π₀.₆)的一些想法》),它里面有一个核心的点就是离线用了td3+bc训练了一个critic模型(关于td3+bc,前期也写过一篇文章:《td3+bc与conrft强化学习算法总结》),critic模型输出了一个Q值,强化学
最近看到清华大学发了一篇文章,解决了在强化学习方法下难以去训练pi0/pi0.5这种用flow matching生成动作的VLA模型的问题,效果看起来还不错。关于piRL的介绍可以参考:《清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案》。piRL笔者最近几天详细的研究了下,笔记如下。先说一下核心点吧,对强化学习,特别是PPO算法,不熟悉的同学,可以先去看一下强化学习方面的知
原文发表在知乎,辛苦移步~《最近深入的研究了一下RLinf框架的原理,也深入了阅读了一些核心的代码,整理一些收获,记录如下。在此之前,关于RLinf框架一些的宏观的信息可参阅笔者的上一篇文章《RLinf强化学习框架试用》。RLinf支持的模型,算法,仿真环境比较多,笔者深入的研究的案例是:pi0.5模型+ppo算法+libero_10仿真,配置文件是:libero_10_ppo_openpi_pi
原始文章发表在知乎,辛苦移步~最近把hil-serl在lerobot机械臂上跑了一下,网上也没找到其他同学的成功的复现分享,所以笔者一路过关斩将解决问题,在此记录一下,希望对大家也能有所帮助。hil-serl是2024年底的一篇文章,作者罗剑岚目前是智元的首席科学家。整体来看,其实hil-serl的思想挺简单的:传统在在线强化学习采样过程可能是算法驱动的,例如随机探索,这样效率比较低,训练时长会较
原文:https://zhuanlan.zhihu.com/p/28483168335多模态大模型在自动驾驶领域的落地是一个必然的趋势,它的泛化性是其它较小模型,即使是e2e模型(uniAD等)都比不了的。关于大模型,以前看过llama2的源码,也了解过大模型在自动驾驶领域的一些经典模型的基本原理,但都停留在表面。地平线去年底发了一个Senna的模型,初步看了下,感觉设计得挺好,因此把它当成深入研







