logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【动手学具身智能】legged_gym项目实践(一)启动训练与测试结果

本文将会记录与讲解使用legged_gym上手实践训练机器人的操作步骤。

文章图片
#android#开发语言
OpenPI(π0) LoRA 微调操作指南

OpenPI LoRA 微调指南(RTX 4090适用) 本文提供RTX 4090(24GB显存)上使用LoRA微调OpenPI模型的完整流程,包含: 核心概念对比 LoRA微调仅需22.5GB显存,训练1-2%参数,速度更快 全量微调需要70GB+显存,训练全部参数 关键路径说明 数据集默认存储位置 检查点保存目录结构 预训练权重位置 训练配置详解 模型配置选项(gemma_2b_lora/ge

#机器人#算法#开发语言
以 DeepRobotics Lite3 强化学习项目 为例 看 观测量(Observation)在足式机器人强化学习中的作用 (Isaac Gym vs Isaac Lab 双版本)

在 Lite3 强化学习项目中,观测量(Observation)是 Policy 网络的输入,它编码了机器人当前的状态信息。观测量的设计直接影响到策略学习的效果和泛化能力。重要说明🔵Isaac Gym 版本: 基于 NVIDIA Isaac Gym 的 Lite3_rl_training 项目:https://github.com/DeepRoboticsLab/Lite3_rl_trainin

#机器人#人工智能#开发语言 +1
以 DeepRobotics Lite3 强化学习项目 为例 看 观测量(Observation)在足式机器人强化学习中的作用 (Isaac Gym vs Isaac Lab 双版本)

在 Lite3 强化学习项目中,观测量(Observation)是 Policy 网络的输入,它编码了机器人当前的状态信息。观测量的设计直接影响到策略学习的效果和泛化能力。重要说明🔵Isaac Gym 版本: 基于 NVIDIA Isaac Gym 的 Lite3_rl_training 项目:https://github.com/DeepRoboticsLab/Lite3_rl_trainin

#机器人#人工智能#开发语言 +1
Ubuntu 22.04,Isaac Sim 5.1.0 + Isaac Lab 2.3.0 Conda 环境安装指南

Isaac Sim 5.1.0 支持通过 pip 安装,这是最简单的方法。: 如果你想贡献代码,建议先 fork 仓库,然后克隆你的 fork。运行训练ant机器人的代码,能开始训练,则说明安装成功。: 你可以使用任何环境名称,但本文档统一使用。: 5-15 分钟(取决于网络速度)

#ubuntu#conda#linux
强化学习人形机器人奖励函数分析

PPO (Proximal Policy Optimization) 是一种 Actor-Critic 架构算法。奖励函数是整个学习过程的指挥棒。学习预测未来的累积回报(Return)。用于处理物理限制的软约束,形式通常为单边损失(Hinge Loss)。,作为 Cost/Penalty 使用,用于约束能量和保持稳定。以下是代码中各个奖励项的数学表达及其物理含义分析。形式,旨在最大化机器人对指令的

#机器人#算法
Waypoint 在具身智能导航中的应用研究 ——以 NoMaD 为例的连续环境导航技术分析

在 Embodied AI(具身智能)导航任务中,WayPoint(航点)是指智能体(Agent)在三维空间中可以到达的、用于辅助路径规划的离散位置点。WayPoint 是连接“高层语义规划”与“底层机器人运动”的关键桥梁。并不是抛弃离散环境的思想,而是将离散环境中的“图结构(Graph)”内化为智能体的一种感知能力。通过深度学习网络(Predictor)实时利用 RGB-D 信息预测可达点,从而

#学习#人工智能
Waypoint 在具身智能导航中的应用研究 ——以 NoMaD 为例的连续环境导航技术分析

在 Embodied AI(具身智能)导航任务中,WayPoint(航点)是指智能体(Agent)在三维空间中可以到达的、用于辅助路径规划的离散位置点。WayPoint 是连接“高层语义规划”与“底层机器人运动”的关键桥梁。并不是抛弃离散环境的思想,而是将离散环境中的“图结构(Graph)”内化为智能体的一种感知能力。通过深度学习网络(Predictor)实时利用 RGB-D 信息预测可达点,从而

#学习#人工智能
Waypoint 在具身智能导航中的应用研究 ——以 NoMaD 为例的连续环境导航技术分析

在 Embodied AI(具身智能)导航任务中,WayPoint(航点)是指智能体(Agent)在三维空间中可以到达的、用于辅助路径规划的离散位置点。WayPoint 是连接“高层语义规划”与“底层机器人运动”的关键桥梁。并不是抛弃离散环境的思想,而是将离散环境中的“图结构(Graph)”内化为智能体的一种感知能力。通过深度学习网络(Predictor)实时利用 RGB-D 信息预测可达点,从而

#学习#人工智能
强化学习人形机器人奖励函数分析

PPO (Proximal Policy Optimization) 是一种 Actor-Critic 架构算法。奖励函数是整个学习过程的指挥棒。学习预测未来的累积回报(Return)。用于处理物理限制的软约束,形式通常为单边损失(Hinge Loss)。,作为 Cost/Penalty 使用,用于约束能量和保持稳定。以下是代码中各个奖励项的数学表达及其物理含义分析。形式,旨在最大化机器人对指令的

#机器人#算法
    共 14 条
  • 1
  • 2
  • 请选择