logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习的数学原理 赵世钰 笔记 第三节 贝尔曼最优公式

vsmax⁡π∑aπa∣sqsas∈Svsπmax​a∑​πa∣sqsas∈S在其中需要先找到最优的policy。矩阵向量形式就是加上最优的bellman公式的矩阵向量形式vmax⁡πrπγPπvvπmax​rπ​γPπ​v。

强化学习的数学原理 赵世钰 笔记 第三节 贝尔曼最优公式

vsmax⁡π∑aπa∣sqsas∈Svsπmax​a∑​πa∣sqsas∈S在其中需要先找到最优的policy。矩阵向量形式就是加上最优的bellman公式的矩阵向量形式vmax⁡πrπγPπvvπmax​rπ​γPπ​v。

到底了