
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
目前我在申请google账户的过程中,需要使用手机号收验证码,可惜的是,大陆的手机不能用(至少我试的两个手机都不可以,系统会提示不能用)。但好在我找到了以前用过的一个google账户,然后把它恢复了,然后就可以正常使用了。另外,也行你会遇到一个关于需要设置一个名为:GOOGLE_CLOUD_PROJECT的环境变量的问题,此时注意需要在google的相关平台上申请一个项目名称,这个不能随便填,申请
目前我在申请google账户的过程中,需要使用手机号收验证码,可惜的是,大陆的手机不能用(至少我试的两个手机都不可以,系统会提示不能用)。但好在我找到了以前用过的一个google账户,然后把它恢复了,然后就可以正常使用了。另外,也行你会遇到一个关于需要设置一个名为:GOOGLE_CLOUD_PROJECT的环境变量的问题,此时注意需要在google的相关平台上申请一个项目名称,这个不能随便填,申请
原文发表在知乎,格式更规正一些,可参考:《近期一直在看一些强化学习相关的算法,所有的出发点其实来源于字节跳动的gr-rl论文(前期写过一篇文章:《关于gr-rl与pi-0.6(π₀.₆)的一些想法》),它里面有一个核心的点就是离线用了td3+bc训练了一个critic模型(关于td3+bc,前期也写过一篇文章:《td3+bc与conrft强化学习算法总结》),critic模型输出了一个Q值,强化学
最近看到清华大学发了一篇文章,解决了在强化学习方法下难以去训练pi0/pi0.5这种用flow matching生成动作的VLA模型的问题,效果看起来还不错。关于piRL的介绍可以参考:《清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案》。piRL笔者最近几天详细的研究了下,笔记如下。先说一下核心点吧,对强化学习,特别是PPO算法,不熟悉的同学,可以先去看一下强化学习方面的知
原文发表在知乎,辛苦移步~《最近深入的研究了一下RLinf框架的原理,也深入了阅读了一些核心的代码,整理一些收获,记录如下。在此之前,关于RLinf框架一些的宏观的信息可参阅笔者的上一篇文章《RLinf强化学习框架试用》。RLinf支持的模型,算法,仿真环境比较多,笔者深入的研究的案例是:pi0.5模型+ppo算法+libero_10仿真,配置文件是:libero_10_ppo_openpi_pi
离线强化学习:这部分前期已经写过一篇文章,可参考《几种强化学习算法输出的Q值的可视化(hil-serl/td3+bc/td3+bc+distributional)》里面的工作2.1,基于笔者选择了跟gr-rl一样的离线技术方案:td3+bc,训练出了一个critic模型,此模型输出的Q值可视化后在趋势上,值的大小上都符合预期。海量数据的监督预训练:gr-rl/pistar0.6,这两个工作都是经过
原始文章发表在知乎,格式会规正一些,可阅读:《近期看了一些强化学习相关的东西,也复现了一些算法,在具身操作场景,目前详细研究过的强化框架有两个:RLinf:是清华出的一个框架,主要应用场景在仿真场景,里面集成了libero/maniskill等仿真环境,openvla-oft/pi0.5等主流vla模型的强化学习应用,ppo/grpo等经典强化学习算法。所以对一些大型VLA模型在仿真场景的强化学习
原文:https://zhuanlan.zhihu.com/p/28483168335多模态大模型在自动驾驶领域的落地是一个必然的趋势,它的泛化性是其它较小模型,即使是e2e模型(uniAD等)都比不了的。关于大模型,以前看过llama2的源码,也了解过大模型在自动驾驶领域的一些经典模型的基本原理,但都停留在表面。地平线去年底发了一个Senna的模型,初步看了下,感觉设计得挺好,因此把它当成深入研
现有代码# 现有代码笔者安装的软件版本与论文作者并不完全一样,笔者版本如下:指标趋势从下图可以看到,在中间的过程算法整体上收敛后有一个较好的效果(图中reward是在用离线数据训练出来的策略在仿真环境下面进行实际运行产生的奖励),后期又发散了。ConRFT介绍:《RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法》,此文章讲得挺清楚了。如上面所述,此工作也是一个两阶段的训
原始文章发表在知乎,辛苦移步~最近把hil-serl在lerobot机械臂上跑了一下,网上也没找到其他同学的成功的复现分享,所以笔者一路过关斩将解决问题,在此记录一下,希望对大家也能有所帮助。hil-serl是2024年底的一篇文章,作者罗剑岚目前是智元的首席科学家。整体来看,其实hil-serl的思想挺简单的:传统在在线强化学习采样过程可能是算法驱动的,例如随机探索,这样效率比较低,训练时长会较







