logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(五)DQN——开启深度强化学习

之前所讲的各种强化学习算法,如 Q-learning 等,大多是以矩阵的方式建立了一张存储每个状态下所有动作QQQ值的表格(一般叫 Q table),但用表格存储动作价值只适用于:环境的状态和动作均离散,且空间较小时,试想一下:当状态 or 动作连续,或者空间大,此时表格记录显得捉襟见肘。但聪明的你想到:函数拟合(function approximation)!即将这个复杂的Q table视作数据

文章图片
#机器学习#人工智能
(二)马尔可夫决策过程(MDP)

马尔可夫决策过程(MDP)是强化学习的理论基础,用于建模智能体与环境交互的问题。分别介绍MRP、MDP等的概念,最后引出求解MDP中价值函数的几种算法

文章图片
#人工智能#机器学习
(二)马尔可夫决策过程(MDP)

马尔可夫决策过程(MDP)是强化学习的理论基础,用于建模智能体与环境交互的问题。分别介绍MRP、MDP等的概念,最后引出求解MDP中价值函数的几种算法

文章图片
#人工智能#机器学习
Oracle19c下载安装和配置教程

首先,感谢谢谢前人、前辈们对Oracle数据库安装等相关事项的记录,我承认安装时确实小心翼翼、战战兢兢的哈哈哈,这里也建议各位读者安装前能做好准备工作:大致了解流程如何以免手忙脚乱、了解版本信息是否和设备匹配、以及用好度娘。很幸运我一次装成功,特此记录一下(部分图片来自网图)Oracle19下载安装和配置教程...

文章图片
#oracle#数据库
到底了