logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习部署相关概念区分: parameters.pkl、Checkpoint 与 TorchScript

(说明书):告诉你训练时的环境和超参数是什么。Checkpoint (原材料):保存训练出来的原生权重,主要给训练代码自己恢复用。TorchScript (成品件):把模型打包成最适合机器推理与部署的形式。训练脚本启动➔ 保存配置到➔ 定期保存权重到 Checkpoint.pt➔ 训练结束/验证时,从当前权重导出 TorchScript.jit➔实机部署时,读取重建控制环境,直接加载.jit执行动

#人工智能#深度学习#机器学习
walk_these_ways项目学习记录第十篇(通过行为多样性 (MoB) 实现地形泛化)--从仿真到部署

真实传感器先被 StateEstimator 整理成训练同构状态,再由 LCMAgent 按训练时相同的方式拼成 observation,HistoryWrapper 维护 obs_history,student policy 输出动作,DeploymentRunner 把动作发到实机,而 actuator net 则在训练侧负责把仿真中的执行器动力学尽量拉近真实机器人。观测同构命令同构控制链同构

#学习#算法#人工智能
walk_these_ways项目学习记录第十篇(通过行为多样性 (MoB) 实现地形泛化)--从仿真到部署

真实传感器先被 StateEstimator 整理成训练同构状态,再由 LCMAgent 按训练时相同的方式拼成 observation,HistoryWrapper 维护 obs_history,student policy 输出动作,DeploymentRunner 把动作发到实机,而 actuator net 则在训练侧负责把仿真中的执行器动力学尽量拉近真实机器人。观测同构命令同构控制链同构

#学习#算法#人工智能
walk_these_ways项目学习记录第七篇(通过行为多样性 (MoB) 实现地形泛化)--核心环境下

的强大不只在于它能跑 Isaac Gym,而在于它把“任务目标、物理随机性、执行器动力学和接触几何”全部揉进了同一个闭环。reward 决定你想让机器人成为什么样;randomization 决定这个能力是否能泛化;terrain 决定它面对的世界有多难;torque 生成链则决定策略输出如何真正变成可执行的物理动作。terrain.py。

#学习#python#人工智能
walk_these_ways项目学习记录第七篇(通过行为多样性 (MoB) 实现地形泛化)--核心环境下

的强大不只在于它能跑 Isaac Gym,而在于它把“任务目标、物理随机性、执行器动力学和接触几何”全部揉进了同一个闭环。reward 决定你想让机器人成为什么样;randomization 决定这个能力是否能泛化;terrain 决定它面对的世界有多难;torque 生成链则决定策略输出如何真正变成可执行的物理动作。terrain.py。

#学习#python#人工智能
walk_these_ways项目学习记录第七篇(通过行为多样性 (MoB) 实现地形泛化)--核心环境下

的强大不只在于它能跑 Isaac Gym,而在于它把“任务目标、物理随机性、执行器动力学和接触几何”全部揉进了同一个闭环。reward 决定你想让机器人成为什么样;randomization 决定这个能力是否能泛化;terrain 决定它面对的世界有多难;torque 生成链则决定策略输出如何真正变成可执行的物理动作。terrain.py。

#学习#python#人工智能
步态参数化:环境如何把命令整理成四条腿的节律

这套步态参数化机制,并不是让神经网络用纯黑盒的方式自己去摸索“四条腿各自什么时候抬和落”。环境先采样速度和连续 gait command。通过巧妙的数学变换,把参数整理到稳定的结构化步态附近。利用全局时钟推进四条腿的相位。将相位转换为拉伸重映射后的平滑时钟输入和软性接触目标。最终,通过 Observation 和 Shaped Reward 将节律信息传递给策略网络。一言以蔽之:策略负责在给定节律

#机器人#学习#算法
walk_these_ways项目学习记录第四篇(通过行为多样性 (MoB) 实现地形泛化)--配置文件阅读

在这个项目里,训练一个 Go2 策略,并不是简单地“把 PPO 跑起来”。更准确地说,是先用一套层级化配置系统,把“机器人是谁、看见什么、做什么、踩在什么地上、会遇到哪些扰动、什么行为算好”全部定义清楚,然后训练脚本再按具体任务目标,对这些默认值进行二次覆盖。提供通用四足任务的基础默认值在此基础上,把机器人具体化为 Go2再进一步把它改造成当前这篇任务对应的 gait-conditioned ag

#学习#python#人工智能
walk_these_ways项目学习记录第三篇(通过行为多样性 (MoB) 实现地形泛化)--训练入口精读(scripts/train.py)

的价值不在于它实现了多少复杂算法,而在于它把这个项目真正“接通了”。它通过先装载 Go2 默认配置,再在入口脚本内集中覆盖 observation、command、reward、terrain、domain randomization 与 sim2real 相关设置,最终得到当前实验的完整Cfg。随后,它创建,再通过把原本只提供单步 observation 的环境包装成同时返回obs和的接口,这一

#学习
到底了