tj_hjx 个人主页

@tj_hjx

tj_hjx

2023-05-24 21:55:36 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习的数学原理赵世钰笔记第二节 Bellman Equation 贝尔曼公式

上一章[[强化学习入门]]

#线性代数 #机器学习

强化学习的数学原理赵世钰笔记第三节贝尔曼最优公式

vsmax⁡π∑aπa∣sqsas∈Svsπmaxa∑πa∣sqsas∈S在其中需要先找到最优的policy。矩阵向量形式就是加上最优的bellman公式的矩阵向量形式vmax⁡πrπγPπvvπmaxrπγPπv。

强化学习的数学原理赵世钰笔记第三节贝尔曼最优公式

vsmax⁡π∑aπa∣sqsas∈Svsπmaxa∑πa∣sqsas∈S在其中需要先找到最优的policy。矩阵向量形式就是加上最优的bellman公式的矩阵向量形式vmax⁡πrπγPπvvπmaxrπγPπv。

到底了