星谷罗殇个人主页

@weixin_51487415

星谷罗殇

2022-09-29 15:57:16 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

（五）DQN——开启深度强化学习

之前所讲的各种强化学习算法，如 Q-learning 等，大多是以矩阵的方式建立了一张存储每个状态下所有动作QQQ值的表格（一般叫 Q table），但用表格存储动作价值只适用于：环境的状态和动作均离散，且空间较小时，试想一下：当状态 or 动作连续，或者空间大，此时表格记录显得捉襟见肘。但聪明的你想到：函数拟合（function approximation）！即将这个复杂的Q table视作数据

#机器学习 #人工智能

（二）马尔可夫决策过程（MDP）

马尔可夫决策过程（MDP）是强化学习的理论基础，用于建模智能体与环境交互的问题。分别介绍MRP、MDP等的概念，最后引出求解MDP中价值函数的几种算法

首先，感谢谢谢前人、前辈们对Oracle数据库安装等相关事项的记录，我承认安装时确实小心翼翼、战战兢兢的哈哈哈，这里也建议各位读者安装前能做好准备工作：大致了解流程如何以免手忙脚乱、了解版本信息是否和设备匹配、以及用好度娘。很幸运我一次装成功，特此记录一下（部分图片来自网图）Oracle19下载安装和配置教程...

#oracle #数据库

到底了