ahfranck 个人主页

@u012937021

ahfranck

2024-03-04 17:49:02 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

David silver 的 reinforcement learning 课程笔记（二）：马尔科夫决策过程

最近在学增强学习，边看课程视频编写的总结。希望和大家一起讨论学习…Markov Process状态 ss是马尔科夫的但且仅当:P(S(t+1)|St）=P(St+1|S1,...,St)P(S_{(t+1)}|S_t）=P(S_{t+1}|S_1,...,S_t)一个马尔科夫过程可以用一个二元组(S,P) (S,P) 定义，其中S为有限的状态的集合，P为转移矩阵。对于一个马尔科夫过程一个样

到底了