
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
前言在Ubuntu系统,创建一个docker,然后搭建conda深度学习环境,这样可以用conda或pip安装相关的依赖库了。一、创建一个docker为了方便开发,在Docker Hub官方中选择一个合适的condadocker镜像,然后下载到本地。我选择了“docker-anaconda”,地址是:https://hub.docker.com/r/continuumio/anaconda3下载

Dexbotic 是一个基于 PyTorch 的开源 VLA 模型工具,专为具身智能研究设计。它提供从数据预处理到模型训练、推理的一站式解决方案,支持多机器人平台(如 UR5、Franka)和主流 VLA 模型(如 CogACT、SimpleVLA-RL)。核心功能包括统一的 Dexdata 数据格式、模块化训练框架(支持 SFT、GRPO 微调)、云/本地分布式训练(兼容 DeepSpeed),

Dexbotic 是一个基于 PyTorch 的开源 VLA 模型工具,专为具身智能研究设计。它提供从数据预处理到模型训练、推理的一站式解决方案,支持多机器人平台(如 UR5、Franka)和主流 VLA 模型(如 CogACT、SimpleVLA-RL)。核心功能包括统一的 Dexdata 数据格式、模块化训练框架(支持 SFT、GRPO 微调)、云/本地分布式训练(兼容 DeepSpeed),

本文分享使用 RLinf 框架对 π₀ 和π₀.₅ 进行强化学习微调。支持`PPO`和`GRPO`等强化学习算法。示例覆盖从环境输入、核心算法、训练脚本配置到评估与可视化的完整流程,并提供可复现的命令和配置片段。

π0.5:统一架构的VLA模型实现开放世界泛化 π0.5基于π0升级,采用统一Transformer架构,通过分层推理(全局任务→语义子任务→连续动作)和离散-连续动作融合表示,实现开放世界复杂任务的端到端控制。模型核心创新: 分层推理机制:单模型完成高层语义分解与低层动作生成,突破传统双模型分离设计的冗余问题; 混合动作表示:预训练阶段用离散token提升效率,推理阶段切换为连续流匹配实现精细控

π₀是一种新型视觉-语言-动作(VLA)框架,采用流匹配技术实现高灵巧度机器人控制。该模型创新性地结合了预训练VLM骨干(SigLIP+Gemma)和流匹配动作模块,支持50Hz的高频连续动作输出。通过动作块设计和跨体化适配,π₀能统一控制7种不同构型的机器人,完成68项任务。其核心优势在于:1)流匹配替代传统自回归离散化,实现连续动作建模;2)动作专家模块(MoE设计)专门处理机器人状态;3)多

GigaBrain-0是一款突破性的VLA模型,通过世界模型生成的多样化数据(包括视频生成、Real2Real迁移等5类数据)显著减少对昂贵真实机器人数据的依赖。其创新点包括:RGBD输入增强3D空间理解,具身思维链监督提升长时任务推理能力。轻量版GigaBrain-0-Small针对边缘设备优化,仅402M参数且延迟0.13秒。模型架构采用混合Transformer,结合语义理解与动作生成,并通

GigaBrain-0是一款突破性的VLA模型,通过世界模型生成的多样化数据(包括视频生成、Real2Real迁移等5类数据)显著减少对昂贵真实机器人数据的依赖。其创新点包括:RGBD输入增强3D空间理解,具身思维链监督提升长时任务推理能力。轻量版GigaBrain-0-Small针对边缘设备优化,仅402M参数且延迟0.13秒。模型架构采用混合Transformer,结合语义理解与动作生成,并通

论文解读,πRL是一款在线强化学习的VLA框架,适配π0、π0.5等基于流的VLA模型。

本文分析SimpleVLA-RL ,它是一款端到端 在线强化学习*的VLA框架








