Bruce_Xing 个人主页

Bruce_Xing

2023-11-17 16:10:06 加入 DevPress

简介

该用户还未填写简介

未填写擅长的技术栈

暂无可提供的服务

上一节我们了解了什么是策略梯度，本节开始讲PPO理论之前，我们先提出一个概念，什么在线学习，什么离线学习。

笔者在强化学习的道路上看来很多书，看了很多代码，和很多大佬的博客，只是很多都是侧重一个方面，所以我在吸取百家之长后，决定完完整整的写一回PPO从算法理论到逐行代码手敲和详解的文章。

上一节我们了解了什么是策略梯度，本节开始讲PPO理论之前，我们先提出一个概念，什么在线学习，什么离线学习。

到底了