logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度强化学习(DRL)算法 附录 3 —— 蒙特卡洛方法(MC)和时序差分(TD)

状态转移概率一般是不知道的,所以我们需要 model-free 的方法,如 MC 和 TD。

文章图片
#算法#深度学习#gpt-3
深度强化学习(DRL)算法 附录 2 —— 策略迭代和价值迭代

和贝尔曼方程一样,得到 v*(s) 和 v*(s‘)以及 q*(s,a) 和 q*(s’, a’) 的关系,这就是贝尔曼最优方程的核心思想。得到 v(s) 和 v(s‘)以及 q(s,a) 和 q(s’, a’) 的关系,这就是贝尔曼方程的核心思想。(这里不能把求和替换成 max 的原因是,我们只能让 v* 最优,因为 p 由系统决定,我们无法决定)(4)即把(2)带入(1),把 (1)带入(2)

文章图片
#算法#深度学习#gpt-3
深度强化学习(DRL)算法 2 —— PPO 之 GAE 篇

到这里,PPO 算法相关的细节就讲完了,但是 PPO 的代码实现上还有许多细节,可以参考cleanrl是目前我看过的可读性最好的 ppo 代码实现,对具体实现感兴趣的可以看下这个 repo。接下来的文章会介绍 DRL 其他的常用算法,如 DDPG、SAC 等。

文章图片
#算法#深度学习#gpt-3
到底了