
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
大模型强化学习入门漫谈(策略梯度, Actor-Critic,TRPO, PPO,GRPO等)
写这篇文章的目的是为了让自己能够更好的从头开始全部梳理一遍所有的逻辑关系,搞清楚一切的来龙去脉,这篇文章主要是以大模型视角下的强化学习来进行解读,大模型视角下主要侧重于两个算法PPO和GRPO,但是为了能够将最初开始的设计目标理的更清楚,所以会先从数学角度下的强化学习入手,搞清楚最最原始的目标,这个算法属于什么体系,以及这个体系的算法最初的目标函数是什么,一步步从策略梯度引入到TRPO到PPO。前
Mxnet安装报错Could not build wheels for numpy, which is required to install pyproject.toml-based project
Mxnet安装报错Could not build wheels for numpy, which is required to install pyproject.toml-based project,阅读多篇文章后的个人总结
到底了







