logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

David silver 的 reinforcement learning 课程笔记(二):马尔科夫决策过程

最近在学增强学习,边看课程视频编写的总结。希望和大家一起讨论学习…Markov Process状态 ss是马尔科夫的但且仅当:P(S(t+1)|St)=P(St+1|S1,...,St)P(S_{(t+1)}|S_t)=P(S_{t+1}|S_1,...,S_t)一个马尔科夫过程可以用一个二元组(S,P) (S,P) 定义,其中S为有限的状态的集合,P为转移矩阵。对于一个马尔科夫过程一个样

到底了