savkACUNCB: IOnjn 个人主页

@tian246319

savkACUNCB: IOnjn

2022-08-06 20:18:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习：TRPO和PPO背后的数学

TRPO 算法 (Trust Region Policy Optimization)和PPO 算法 (Proximal Policy Optimization)都属于MM(Minorize-Maximizatio)算法。在本文中，我们将介绍基础的MM算法，并且通过几个步骤推导出TRPO和PPO的目标函数。在我们的强化学习系列课程之中( Reinforcement Learning series )

#人工智能 #数学 #python

到底了