logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习PPO从理论到代码详解(2)---PPO1和PPO2

上一节我们了解了什么是策略梯度,本节开始讲PPO理论之前,我们先提出一个概念,什么在线学习,什么离线学习。

文章图片
#深度学习#人工智能
强化学习PPO从理论到代码详解(1)--- 策略梯度Policy gradient

笔者在强化学习的道路上看来很多书,看了很多代码,和很多大佬的博客,只是很多都是侧重一个方面,所以我在吸取百家之长后,决定完完整整的写一回PPO从算法理论到逐行代码手敲和详解的文章。

文章图片
#深度学习#人工智能
强化学习PPO从理论到代码详解(1)--- 策略梯度Policy gradient

笔者在强化学习的道路上看来很多书,看了很多代码,和很多大佬的博客,只是很多都是侧重一个方面,所以我在吸取百家之长后,决定完完整整的写一回PPO从算法理论到逐行代码手敲和详解的文章。

文章图片
#深度学习#人工智能
强化学习PPO从理论到代码详解(2)---PPO1和PPO2

上一节我们了解了什么是策略梯度,本节开始讲PPO理论之前,我们先提出一个概念,什么在线学习,什么离线学习。

到底了