logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

WorldModel_Theory_002_PPT

这句话其实是在说一件经典事:在 POMDP 里,如果你用历史构造一个信念态/信息态(belief state / agent state),这个“新状态”对智能体来说就是可观测的,并且可以变成 Markov,从而把问题转成一个 MDP 来做。Dreamer 的 (s_t) 就扮演了这种“agent state”(智能体内部状态)的角色:RL4AA 的讲义也明确区分了environment stat

#算法#人工智能#机器学习
到底了