刘禹辰个人主页

@weixin_42717351

刘禹辰

2023-03-28 21:20:07 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

具身智能的“大脑”进化：深入拆解VLA 模型中的强化学习方法论

本文总结了视觉语言智能体(VLA)训练中常用的四种强化学习方法：PPO通过截断策略更新确保训练稳定，适用于机器人控制；SAC结合最大熵框架提高探索效率，适合连续控制任务；GRPO采用无评论家的分组归一化优势计算，优化内存效率；Reinforce++通过全局优势归一化增强鲁棒性，适用于语言模型对齐。这些方法各具特色，针对VLA训练中的不同挑战提供了解决方案。

#机器人 #人工智能 #算法

具身智能的“大脑”进化：深入拆解VLA 模型中的强化学习方法论

#机器人 #人工智能 #算法

具身智能的“大脑”进化：深入拆解VLA 模型中的强化学习方法论

#机器人 #人工智能 #算法

硬核拆解：从 PPO 到 GRPO，一文读懂 VLA 大模型背后的强化学习魔法

摘要：本文深入解析了强化学习（RL）在视觉-语言-动作（VLA）大模型中的应用原理。首先将RL算法分为稳健派（如PPO、GRPO）、探索派（如SAC）和数据派（如RLPD），并重点剖析了VLA如何通过动作离散化将视觉输入转化为具体动作。文章详细拆解了GRPO和PPO的核心算法，前者通过分组PK取代Critic网络节省显存，后者采用截断机制确保训练稳定性。最后揭示了VLA工程实现中的关键技巧，包括

#机器人 #人工智能 #算法

硬核拆解：从 PPO 到 GRPO，一文读懂 VLA 大模型背后的强化学习魔法

#机器人 #人工智能 #算法

硬核拆解：从 PPO 到 GRPO，一文读懂 VLA 大模型背后的强化学习魔法

#机器人 #人工智能 #算法

深入浅出机器人运动学：正运动学与逆运动学完全掌握

本文系统介绍了机器人运动学的两大核心概念：正运动学和逆运动学。正运动学通过关节变量计算末端执行器的位置姿态，采用DH参数法建立标准化模型；逆运动学则从目标位姿反求关节变量，可能产生多解或无解。文章还探讨了雅可比矩阵的作用和机器人的奇异性问题，提供了Python代码示例演示二连杆机械臂的逆运动学求解。这些理论基础是机器人控制、路径规划和任务执行的关键，为读者深入理解机器人运动学提供了清晰框架。

#机器人 #算法 #人工智能

从SE(3)变换、手眼标定到ACT策略中的旋转表示解析

摘要本文系统解析了机器人控制中的空间变换理论与手眼标定技术。首先介绍了SE(3)特殊欧氏群作为描述刚体运动的数学工具，详细阐述了齐次变换矩阵的物理意义和坐标系层级关系。其次深入探讨了手眼标定的两种构型(Eye-in-Hand与Eye-to-Hand)及其应用场景，解析了核心方程AX=XB的数学本质和求解方法。文章特别强调了旋转与平移的几何结构差异对机器人学习的影响，以及坐标系定义、矩阵乘法顺序等

#机器人 #人工智能

到底了