
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文完成了基于 CUDA 与 Transformers 的 Qwen2.5-VL 本地部署,并结合完整代码详细分析了多模态大模型从图片输入、文本编码到最终生成回答的完整推理流程。

本文介绍了 Linux 环境下串口通信的基础使用,并通过 Python 测试与 C++ 封装实现了一个同时支持异步收发和同步指令通信的串口模块。

本文分别从Windows端和Linux端,分别提出用 SSHFS / GVFS`将远程目录挂载到本地,用本地 VSCode 直接开发,从而绕过 Remote-SSH 的 vscode-server。

本期我们从训练日志出发,深入解析了 OnPolicyRunner中 log函数的实现,搞清楚了平均奖励、损失函数等指标的计算方式,并结合 TensorBoard对训练过程进行了可视化分析。同时,我们实现了基于手柄输入的实时控制,将训练好的策略应用到实际控制场景中,从而直观验证模型的稳定性与泛化能力,为后续奖励函数优化和策略改进打下基础。

本期我们梳理了 unitree_rl_gym`的训练流程,从 train.py的入口到 TaskRegistry的环境与算法创建,再到 LeggedRobotCfg的环境和训练参数配置,全面了解了并行环境、地形设置、动作观测维度、奖励设计和仿真参数,为后续解析 Go2 机器人环境及 PPO 训练闭环打下了基础。

本期我们对 `rsl_rl` 仓库中 PPO 算法的 Python 实现进行了全面解析:从初始化超参数、经验回放缓存、动作采样、环境反馈处理,到优势函数计算与策略更新的完整流程。核心机制包括概率比率裁剪 (`clip`)、GAE 优势估计、价值函数裁剪、防止梯度爆炸、以及可选的自适应学习率和 KL 控制,最终通过组合策略损失、价值损失和策略熵形成完整优化目标,实现对四足机器人稳定且高效的强化学习训

本期我们分析了LeggedRobot类的环境创建逻辑,并且修改代码实现了复杂地形的生成以及对应地形机器人的初始化。

本期我们深入探讨了legged_gym项目中的奖励函数系统,特别是如何通过对机器人动作、状态、环境的各种影响(如线速度、角速度、姿态、碰撞等)进行加权求和来计算总奖励。此外,我们还介绍了如何使用play.py来加载训练好的模型进行测试

本期主要解析了 rsl_rl`仓库中 ActorCritic与 ActorCriticRecurrent的 Python 实现,回顾了 Actor-Critic 的核心原理,重点讲解了 ActorCriticRecurrent 引入 RNN/Memory 模块以增强网络对历史信息的记忆能力,区分了训练和推理模式下隐藏状态的处理,并对网络构建、动作采样、价值评估等函数实现进行了详细剖析,为理解复杂机

本文完成了基于 CUDA 与 Transformers 的 Qwen2.5-VL 本地部署,并结合完整代码详细分析了多模态大模型从图片输入、文本编码到最终生成回答的完整推理流程。








