logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

π RL(piRL)算法支持用强化学习方法训练π 0/π 0.5(pi0/pi0.5)

最近看到清华大学发了一篇文章,解决了在强化学习方法下难以去训练pi0/pi0.5这种用flow matching生成动作的VLA模型的问题,效果看起来还不错。关于piRL的介绍可以参考:《清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案》。piRL笔者最近几天详细的研究了下,笔记如下。先说一下核心点吧,对强化学习,特别是PPO算法,不熟悉的同学,可以先去看一下强化学习方面的知

#算法
具身智能hil-serl强化学习算法在lerobot机械臂上复现

原始文章发表在知乎,辛苦移步~最近把hil-serl在lerobot机械臂上跑了一下,网上也没找到其他同学的成功的复现分享,所以笔者一路过关斩将解决问题,在此记录一下,希望对大家也能有所帮助。hil-serl是2024年底的一篇文章,作者罗剑岚目前是智元的首席科学家。整体来看,其实hil-serl的思想挺简单的:传统在在线强化学习采样过程可能是算法驱动的,例如随机探索,这样效率比较低,训练时长会较

#算法
具身智能hil-serl强化学习算法在lerobot机械臂上复现

原始文章发表在知乎,辛苦移步~最近把hil-serl在lerobot机械臂上跑了一下,网上也没找到其他同学的成功的复现分享,所以笔者一路过关斩将解决问题,在此记录一下,希望对大家也能有所帮助。hil-serl是2024年底的一篇文章,作者罗剑岚目前是智元的首席科学家。整体来看,其实hil-serl的思想挺简单的:传统在在线强化学习采样过程可能是算法驱动的,例如随机探索,这样效率比较低,训练时长会较

#算法
具身智能π0.5(pi0.5)模型介绍

看到pi0.5后,第一个会想到的是,它与pi0(π0模型前向推理过程详解, π 0模型数据-训练-评测过程)相比的升级点在哪里。它有一个state_proj层,用于将状态向量投影到模型的嵌入空间中,与50维action chunk拼在一起,形成一个51维的embedding,然后在action expert中使用。大概半年前学习过pi0与pi0.5模型,那时候pi0.5还没有开源,现在pi0.5开

#人工智能
具身智能π0.5(pi0.5)模型在lerobot机械臂上复现

最近几天将pi0.5模型训练并在物理lerobot机械臂上跑了一下,过程如下:采数据命令:}’

#人工智能
3d gaussian splatting(3DGS-三维高斯泼溅)学习

官方的代码库: link,官方的代码的核心部分其实是cuda实现的,官方代码中的python部分只是搭建了训练的框架,负责输入/输出/模型训练等逻辑。对cuda不是特别熟悉,读起来费劲,正好看到有网友整体以python的形式重新实现了一下,代码库:link,此代码有配套的视频讲解,我看了2遍,讲得还是挺不错的,视频地址:link。下面先讲一下网友python版的代码逻辑,代码只有几百行,可以把算法

#3d
Senna多模态大模型中关键数据及代码解析

每层的0应该是k, 1应该是v,(1,32,999, 128)中的1是batch size,32是multi head的head数,128是每个head的维度,999就是上次输入的999个token。今天将Senna官方代码中的eval跑了一下,同时用pycharm的debug工具追踪一些关键数据的处理流程,也梳理了代码的执行流程,记录一些关键信息如下,作为一个记录,同时也希望能对大家有所帮助。5

文章图片
#语言模型#自动驾驶
Senna模型训练的工程跑通

原文:https://zhuanlan.zhihu.com/p/28483168335多模态大模型在自动驾驶领域的落地是一个必然的趋势,它的泛化性是其它较小模型,即使是e2e模型(uniAD等)都比不了的。关于大模型,以前看过llama2的源码,也了解过大模型在自动驾驶领域的一些经典模型的基本原理,但都停留在表面。地平线去年底发了一个Senna的模型,初步看了下,感觉设计得挺好,因此把它当成深入研

文章图片
#语言模型#自动驾驶
视觉-语言-动作大模型openvla详解

最近在看具身智能领域一些代表性的模型,openvla是2024年中出的一个vla模型,详细的学习了一下,这个文章在工程实现方面写得还是非常详尽的(代码中的README和论文本身),包括环境安装,全量微调,lora微调,模型格式转换,甚至在效果不好时如何一步一步排查也写了,感觉作者是很用心的,值得我们学习。openvla模型比较经典,网络上的解读文章也比较多了,我在文末也列了2个,仅供参考。简单来说

文章图片
#语言模型#人工智能
π0模型前向推理过程详解

π0模型是vla中比较经典的模型,前段时间详细的研究了一下它的模型结构,记录如下,在这篇文章中,不讲原理,只列前向推理过程中的一些关键的过程与数据结构。

#语言模型
    共 16 条
  • 1
  • 2
  • 请选择