
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
强化学习的数学原理 赵世钰 笔记 第二节 Bellman Equation 贝尔曼公式
上一章[[强化学习入门]]
强化学习的数学原理 赵世钰 笔记 第三节 贝尔曼最优公式
vsmaxπ∑aπa∣sqsas∈Svsπmaxa∑πa∣sqsas∈S在其中需要先找到最优的policy。矩阵向量形式就是加上最优的bellman公式的矩阵向量形式vmaxπrπγPπvvπmaxrπγPπv。
强化学习的数学原理 赵世钰 笔记 第三节 贝尔曼最优公式
vsmaxπ∑aπa∣sqsas∈Svsπmaxa∑πa∣sqsas∈S在其中需要先找到最优的policy。矩阵向量形式就是加上最优的bellman公式的矩阵向量形式vmaxπrπγPπvvπmaxrπγPπv。
到底了








