logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

π∗0.6——RL微调流式VLA π0.6:先基于演示数据做离线RL预训练,再在线RL后训练(与环境自主交互,从经验数据中学习,且必要时人工干预)

摘要: π0.6是PI公司提出的新一代视觉-语言-动作(VLA)模型,通过强化学习(RL)从自主经验中提升性能。其核心框架RECAP结合了离线RL预训练、在线数据采集与专家干预,利用分布式价值函数评估任务进展,并通过优势条件策略优化动作选择。实验表明,该方法在复杂任务(如折叠衣物、制作咖啡)中使吞吐量提升2倍以上,失败率降低50%,实现了长时间稳定运行。相比传统模仿学习或策略梯度方法,π0.6通过

文章图片
rsl_rl——人形运控部署框架汇总:从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)

本文介绍了一个强化学习框架rsl_rl,重点解析了其PPO算法的实现。该框架包含Actor-Critic网络(包括普通版、CNN版、历史记忆版和RNN版)、PPO算法实现、训练运行器等核心组件。在PPO实现部分,详细说明了其初始化过程、动作选择、环境交互处理、回报计算和参数更新机制。其中参数更新采用了裁剪优势估计、自适应学习率调整等技术,通过代理损失、价值函数损失和熵奖励三部分构成总损失进行梯度优

文章图片
经典算法研究系列:八、再谈启发式搜索算法

经典算法研究系列:八、再谈启发式搜索算法作者:July   二零一一年二月十日本文参考:I、  维基百科、II、 人工智能-09 启发式搜索、III、本BLOG内,经典算法研究系列:一、A*搜索算法----------------------------引言:A*搜索算法,作为经典算法研究系列的开篇文章,之前已在本BLOG内有所阐述。但要真正理解A*搜索算法,还是得先从启发式搜索算法谈起。毕竟,A

#算法
数学建模十大经典算法漫谈

数学建模十大算法漫谈作者:July  二零一一年一月二十九日本文参考:I、  细数二十世纪最伟大的十大算法 译者:JulyII、 本BLOG内 经典算法研究系列III、维基百科博主说明:1、此数学建模十大算法依据网上的一份榜单而写,本文对此十大算法作一一简单介绍。这只是一份榜单而已,数学建模中还有很多的算法,未一一囊括。欢迎读者提供更多的好的算法。2、此份榜单,只是初步阐述了此数学建模十大算法,日

#算法#matlab
Meta发布的自监督ViT DINO的发展史:从DINO、DINOv2到通用视觉特征提取器DINOv3

前言之所以关注到DINOV2,原因在于我解读的多个具身机器人模型的视觉基座都用的它,比如不过,实话讲,DINO论文的可读性是真的不高,使得本次解读不易..总之,本文目前只是个初稿,后面还得花不少时间反复优化。

文章图片
大模型长度扩展综述:从直接外推ALiBi、插值PI、NTK-aware插值(Meta称之为RoPE ABF)、YaRN到S2-Attention

下半年以来,我全力推动我司大模型项目团队的组建,我虽兼管整个项目团队,但为了并行多个项目,最终分成了三个项目组,每个项目都有一个项目负责人,分别为霍哥、阿荀、朝阳,有何问题 欢迎随时留言评论,thanks了解几种外推方案做了什么然后再顺着苏剑林文章的思路来看为什么这样做但总觉得不够深刻moe我有了解过GLaM,Mistral那边的没了解过打算了解下,估计也大差不差。

文章图片
HumanoidVerse——CMU发布的用于人形sim2real训练的多模拟器框架(包含agents/envs/config/data):涉及师生网络、PPO、运动追踪

本文解析了ASAP开源代码框架,这是一个专注于人形机器人敏捷运动技能学习的平台。核心内容包括:1) 算法层实现PPO、DAgger等强化学习算法,支持增量学习等创新模块;2) 环境层提供运动控制和任务跟踪等场景;3) 模拟器层对接IsaacGym等多物理引擎。文章详细剖析了PPO训练流程、广义优势估计计算等关键技术实现,并介绍了双策略机制和参考策略加载等创新设计。该框架采用模块化架构,支持从仿真到

文章图片
GO1——继AgiBot World之后,智元发布GO1及其背后基于潜在动作的VLA架构ViLLA:利用海量的无标注视频做训练(含LAPA、Moto的详解)

AgiBot World Colosseo,这是一个全栈式大规模机器人学习平台,旨在推动可扩展和智能化的体感系统中的双手操作研究。他们建造了一个总面积达4000平方米的设施,涵盖五个主要领域——家庭、零售、工业、餐厅和办公室环境——专用于在真实的日常场景中进行高保真数据收集AgiBot World从100个真实机器人收集了超过100万条轨迹,提供了前所未有的多样性和复杂性。它涵盖了超过100个现实

文章图片
Google发布Genie硬杠Sora(含Genie 2):通过大量无监督视频训练最终生成可交互虚拟世界

Sora 问世才不到两个星期,谷歌的世界模型也来了,能力看似更强大(嗯,看似):它生成的虚拟世界自主可控。

文章图片
一文通透OpenVLA——在Prismatic VLM(SigLIP、DinoV2、Llama 2)的架构上:基于“下一个token预测技术”预测离散化动作

一个多月前,有朋友曾说,一个月内,π0 会开源来着,当时虽然觉得不太可能,但还是抱着期待可还是没开..没开源必然是有点遗憾,故这两天我一直在考虑、对比,看目前哪个vla最逼近π0,然后借鉴π0的思路,去改造该vla前两天又重点看了下openvla,和cogact,然后对此文增加了不少解读内容,且发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla。

文章图片
    共 408 条
  • 1
  • 2
  • 3
  • 41
  • 请选择