
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
David silver 的 reinforcement learning 课程笔记(二):马尔科夫决策过程
最近在学增强学习,边看课程视频编写的总结。希望和大家一起讨论学习…Markov Process状态 ss是马尔科夫的但且仅当:P(S(t+1)|St)=P(St+1|S1,...,St)P(S_{(t+1)}|S_t)=P(S_{t+1}|S_1,...,S_t)一个马尔科夫过程可以用一个二元组(S,P) (S,P) 定义,其中S为有限的状态的集合,P为转移矩阵。对于一个马尔科夫过程一个样
到底了







