logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习Actor/Learner框架介绍(lerobot版)

原始文章发表在知乎,格式会规正一些,可阅读:《近期看了一些强化学习相关的东西,也复现了一些算法,在具身操作场景,目前详细研究过的强化框架有两个:RLinf:是清华出的一个框架,主要应用场景在仿真场景,里面集成了libero/maniskill等仿真环境,openvla-oft/pi0.5等主流vla模型的强化学习应用,ppo/grpo等经典强化学习算法。所以对一些大型VLA模型在仿真场景的强化学习

#arm开发
强化学习阶段性总结

而在强化学习里面,监督信号来源于反馈,是一种间接的信号,例如在机械臂上,监督信号来源于环境的反馈:机械臂有没有成功的抓起物体,有没有成功的将物体推到目标区域…另一方面,更加有针对性,这个地方容易出错,那就在出错的地方反复学习纠错。PPO+LLM场景:《图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读_图解大模型rlhf系列之:人人都能看懂的ppo原理与源码解读-CSDN博客》和《强化学

#人工智能#算法
Senna多模态大模型中关键数据及代码解析

每层的0应该是k, 1应该是v,(1,32,999, 128)中的1是batch size,32是multi head的head数,128是每个head的维度,999就是上次输入的999个token。今天将Senna官方代码中的eval跑了一下,同时用pycharm的debug工具追踪一些关键数据的处理流程,也梳理了代码的执行流程,记录一些关键信息如下,作为一个记录,同时也希望能对大家有所帮助。5

文章图片
#语言模型#自动驾驶
Senna模型训练的工程跑通

原文:https://zhuanlan.zhihu.com/p/28483168335多模态大模型在自动驾驶领域的落地是一个必然的趋势,它的泛化性是其它较小模型,即使是e2e模型(uniAD等)都比不了的。关于大模型,以前看过llama2的源码,也了解过大模型在自动驾驶领域的一些经典模型的基本原理,但都停留在表面。地平线去年底发了一个Senna的模型,初步看了下,感觉设计得挺好,因此把它当成深入研

文章图片
#语言模型#自动驾驶
部分离线强化学习相关的算法总结(td3+bc/conrft)

现有代码# 现有代码笔者安装的软件版本与论文作者并不完全一样,笔者版本如下:指标趋势从下图可以看到,在中间的过程算法整体上收敛后有一个较好的效果(图中reward是在用离线数据训练出来的策略在仿真环境下面进行实际运行产生的奖励),后期又发散了。ConRFT介绍:《RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法》,此文章讲得挺清楚了。如上面所述,此工作也是一个两阶段的训

#算法
具身智能hil-serl强化学习算法在lerobot机械臂上复现

原始文章发表在知乎,辛苦移步~最近把hil-serl在lerobot机械臂上跑了一下,网上也没找到其他同学的成功的复现分享,所以笔者一路过关斩将解决问题,在此记录一下,希望对大家也能有所帮助。hil-serl是2024年底的一篇文章,作者罗剑岚目前是智元的首席科学家。整体来看,其实hil-serl的思想挺简单的:传统在在线强化学习采样过程可能是算法驱动的,例如随机探索,这样效率比较低,训练时长会较

#算法
具身智能π0.5(pi0.5)模型介绍

看到pi0.5后,第一个会想到的是,它与pi0(π0模型前向推理过程详解, π 0模型数据-训练-评测过程)相比的升级点在哪里。它有一个state_proj层,用于将状态向量投影到模型的嵌入空间中,与50维action chunk拼在一起,形成一个51维的embedding,然后在action expert中使用。大概半年前学习过pi0与pi0.5模型,那时候pi0.5还没有开源,现在pi0.5开

#人工智能
RLinf强化学习框架试用

原文发表在知乎,辛苦移步:《最近一直在看强化学习算法,跑起来的demo模型都很小,(例如:《具身智能hil-serl强化学习算法在lerobot机械臂上复现》)所以可以在单机上很容易跑起来。但针对具身智能的VLA模型,可能动辙就是几个B的参数量,如果只是模仿学习的话,也有很多分布式训练框架,例如deepspeed, fsdp等可很方便的引入,这样多卡/多机训练也很简单。

#人工智能
3d gaussian splatting(3DGS-三维高斯泼溅)学习

官方的代码库: link,官方的代码的核心部分其实是cuda实现的,官方代码中的python部分只是搭建了训练的框架,负责输入/输出/模型训练等逻辑。对cuda不是特别熟悉,读起来费劲,正好看到有网友整体以python的形式重新实现了一下,代码库:link,此代码有配套的视频讲解,我看了2遍,讲得还是挺不错的,视频地址:link。下面先讲一下网友python版的代码逻辑,代码只有几百行,可以把算法

#3d
视觉-语言-动作大模型openvla类图

openvla的类图分为2个,第一个适用于前向推理(vla-scripts/deploy.py)和lora微调(vla-scripts/finetune.py),下面简称精简版,第二个适用于全量微调(vla-scripts/train.py),下面简称复杂版。精简版就是下面第一张图,它的类的数量会少很多,确实清爽一些(补充一下,复杂版式的类图其实比较复杂,下面的复杂版的图看起来简单是因为我把它画得

文章图片
#语言模型#人工智能
    共 14 条
  • 1
  • 2
  • 请选择