logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习 2 —— 用动态规划解决 MDP 问题 (Policy Iteration and Value Iteration)

强化学习 2—— 用动态规划求解 MDP在上一篇文章 强化学习 1 —— 一文读懂马尔科夫决策过程 MDP 介绍了马尔科夫过程,本篇接着来介绍如何使用动态规划方法来求解。动态规划的关键点有两个:一是问题的最优解可以由若干小问题的最优解构成,即通过寻找子问题的最优解来得到问题的最优解。二是可以找到子问题状态之间的递推关系,通过较小的子问题状态递推出较大的子问题的状态。在上一篇中我们提到的状态价值的贝

文章图片
强化学习 9 —— DQN 改进算法 DDQN、Dueling DQN 详解与tensorflow 2.0实现

上篇文章强化学习——详解 DQN 算法我们介绍了 DQN 算法,但是 DQN 还存在一些问题,本篇文章介绍针对 DQN 的问题的改进算法一、Double DQN 算法1、算法介绍DQN的问题有:目标 Q 值(Q Target )计算是否准确?全部通过 max  Qmax\;QmaxQ 来计算有没有问题?很显然,是有问题的,这是因为Q-Learning 本身固有的缺陷—过估计过估计是指估计得值函数比

文章图片
神经网络之反向传播算法(BP)公式推导

反向传播算法详细推导反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播..

#神经网络#深度学习
强化学习 14 —— TD3 算法详解与 tensorflow 2.0 实现

上篇文章 强化学习 13 —— DDPG算法详解 中介绍了DDPG算法,本篇介绍TD3算法。TD3的全称为 Twin Delayed Deep Deterministic Policy Gradient(双延迟深度确定性策略)。可以看出,TD3就是DDPG算法的升级版,所以如果了解了DDPG,那么TD3算法自然不在话下。一、算法介绍TD3算法主要对DDPG做了三点改进,将会在下面 一一讲解,两者的

文章图片
强化学习 7—— 一文读懂 Deep Q-Learning(DQN)算法

上篇文章强化学习——状态价值函数逼近介绍了价值函数逼近(Value Function Approximation,VFA)的理论,本篇文章介绍大名鼎鼎的DQN算法。DQN算法是 DeepMind 团队在2015年提出的算法,对于强化学习训练苦难问题,其开创性的提出了两个解决办法,在atari游戏上都有不俗的表现。论文发表在了 Nature 上,此后的一些DQN相关算法都是在其基础上改进,可以说是打

文章图片
#神经网络#算法
强化学习 1 —— 一文读懂马尔科夫决策过程(MDP)

强化学习 — 马尔科夫决策过程(MDP)一、马尔科夫过程(Markov Process)马尔科夫性某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性P(St+1∣St)=p(St+1∣S1,S2,⋯ ,St)P(S_{t+1}|S_t) = p(S_{t+1}|S_1, S_2, \cdots , S_t)P(St+1​

文章图片
#深度学习#算法
到底了