xyk_hust 个人主页

@xyk_hust

xyk_hust

2024-02-04 11:49:59 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

David Silver《强化学习RL》第二讲马尔可夫决策过程

在强化学习中，马尔科夫决策过程（Markov decision process, MDP）是对完全可观测的环境进行描述的，也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。下面将从以下四个部分展开介绍：马尔科夫过程 Markov Process马尔科夫奖励过程 Markov Reward Proces...

强化学习实践四：Agent类和SARSA算法实现

通过前几次强化学习实践讲解，我们基本上理解了个体与环境的建模思想，特别是对gym库有了一定的了解。在本讲中，我们将尝试编写一个简单的Agent类，并且使它能够和我们之前编写的格子世界环境类进行交互。然后我们将实现SARSA算法，确切地说是SARSA(0)。我们将看看它在简单格子世界中的训练效果。由于蒙特卡洛学习和单纯的基于价值的TD学习实际应用不多，在实践环节我也不打算实现这两个算法，当然了S..

（C++）map函数的用法

到底了