
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文将会记录与讲解使用legged_gym上手实践训练机器人的操作步骤。

OpenPI LoRA 微调指南(RTX 4090适用) 本文提供RTX 4090(24GB显存)上使用LoRA微调OpenPI模型的完整流程,包含: 核心概念对比 LoRA微调仅需22.5GB显存,训练1-2%参数,速度更快 全量微调需要70GB+显存,训练全部参数 关键路径说明 数据集默认存储位置 检查点保存目录结构 预训练权重位置 训练配置详解 模型配置选项(gemma_2b_lora/ge
在 Lite3 强化学习项目中,观测量(Observation)是 Policy 网络的输入,它编码了机器人当前的状态信息。观测量的设计直接影响到策略学习的效果和泛化能力。重要说明🔵Isaac Gym 版本: 基于 NVIDIA Isaac Gym 的 Lite3_rl_training 项目:https://github.com/DeepRoboticsLab/Lite3_rl_trainin
在 Lite3 强化学习项目中,观测量(Observation)是 Policy 网络的输入,它编码了机器人当前的状态信息。观测量的设计直接影响到策略学习的效果和泛化能力。重要说明🔵Isaac Gym 版本: 基于 NVIDIA Isaac Gym 的 Lite3_rl_training 项目:https://github.com/DeepRoboticsLab/Lite3_rl_trainin
Isaac Sim 5.1.0 支持通过 pip 安装,这是最简单的方法。: 如果你想贡献代码,建议先 fork 仓库,然后克隆你的 fork。运行训练ant机器人的代码,能开始训练,则说明安装成功。: 你可以使用任何环境名称,但本文档统一使用。: 5-15 分钟(取决于网络速度)
PPO (Proximal Policy Optimization) 是一种 Actor-Critic 架构算法。奖励函数是整个学习过程的指挥棒。学习预测未来的累积回报(Return)。用于处理物理限制的软约束,形式通常为单边损失(Hinge Loss)。,作为 Cost/Penalty 使用,用于约束能量和保持稳定。以下是代码中各个奖励项的数学表达及其物理含义分析。形式,旨在最大化机器人对指令的
在 Embodied AI(具身智能)导航任务中,WayPoint(航点)是指智能体(Agent)在三维空间中可以到达的、用于辅助路径规划的离散位置点。WayPoint 是连接“高层语义规划”与“底层机器人运动”的关键桥梁。并不是抛弃离散环境的思想,而是将离散环境中的“图结构(Graph)”内化为智能体的一种感知能力。通过深度学习网络(Predictor)实时利用 RGB-D 信息预测可达点,从而
在 Embodied AI(具身智能)导航任务中,WayPoint(航点)是指智能体(Agent)在三维空间中可以到达的、用于辅助路径规划的离散位置点。WayPoint 是连接“高层语义规划”与“底层机器人运动”的关键桥梁。并不是抛弃离散环境的思想,而是将离散环境中的“图结构(Graph)”内化为智能体的一种感知能力。通过深度学习网络(Predictor)实时利用 RGB-D 信息预测可达点,从而
在 Embodied AI(具身智能)导航任务中,WayPoint(航点)是指智能体(Agent)在三维空间中可以到达的、用于辅助路径规划的离散位置点。WayPoint 是连接“高层语义规划”与“底层机器人运动”的关键桥梁。并不是抛弃离散环境的思想,而是将离散环境中的“图结构(Graph)”内化为智能体的一种感知能力。通过深度学习网络(Predictor)实时利用 RGB-D 信息预测可达点,从而
PPO (Proximal Policy Optimization) 是一种 Actor-Critic 架构算法。奖励函数是整个学习过程的指挥棒。学习预测未来的累积回报(Return)。用于处理物理限制的软约束,形式通常为单边损失(Hinge Loss)。,作为 Cost/Penalty 使用,用于约束能量和保持稳定。以下是代码中各个奖励项的数学表达及其物理含义分析。形式,旨在最大化机器人对指令的







