
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
WorldModel_Theory_002_PPT
这句话其实是在说一件经典事:在 POMDP 里,如果你用历史构造一个信念态/信息态(belief state / agent state),这个“新状态”对智能体来说就是可观测的,并且可以变成 Markov,从而把问题转成一个 MDP 来做。Dreamer 的 (s_t) 就扮演了这种“agent state”(智能体内部状态)的角色:RL4AA 的讲义也明确区分了environment stat
到底了







