logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型强化学习入门漫谈(策略梯度, Actor-Critic,TRPO, PPO,GRPO等)

写这篇文章的目的是为了让自己能够更好的从头开始全部梳理一遍所有的逻辑关系,搞清楚一切的来龙去脉,这篇文章主要是以大模型视角下的强化学习来进行解读,大模型视角下主要侧重于两个算法PPO和GRPO,但是为了能够将最初开始的设计目标理的更清楚,所以会先从数学角度下的强化学习入手,搞清楚最最原始的目标,这个算法属于什么体系,以及这个体系的算法最初的目标函数是什么,一步步从策略梯度引入到TRPO到PPO。前

#人工智能#深度学习
Mxnet安装报错Could not build wheels for numpy, which is required to install pyproject.toml-based project

Mxnet安装报错Could not build wheels for numpy, which is required to install pyproject.toml-based project,阅读多篇文章后的个人总结

#mxnet#人工智能#深度学习
到底了