logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

离线强化学习(Offline RL)系列3: (算法篇) CQL(Conservative Q-Learning)算法详解与实现

论文的主要思想是在QQ值基础上增加一个regularizer,学习一个保守的Q函数,作者从理论上证明了CQL可以产生一个当前策略的真实值下界,并且是可以进行策略评估和策略提升的过程。从代码的角度上来说,本文的regularizer只需要20行代码即可实现,大幅提升了实验结果。同时作者也全部opensource了代码,非常推荐研究。

文章图片
离线强化学习(Offline RL)系列3: (算法篇) IQL(Implicit Q-learning)算法详解与实现

本文提出的 IQL(Implicit Q-learning) 直接没有去学习OOD之外的动作,而是用已知的state-action进行学习,通过使用SARSA style的方式重构策略和值函数(引入Expectile Regression) $L$ ,在策略的抽取方面采用了AWR(Advantage Weighted Regression)方式抽取,直接确定 $Q$ 值如何随着不同的动作而变化,并

文章图片
离线强化学习(Offline RL)系列2: (环境篇)D4RL数据集简介、安装及错误解决

强化学习快速发展的主要原因在于有一个良好的模拟环境,最终得到一个最优的policy, 然而现实问题就是在实际落地应用中没有有效的环境,为了解决实验环境问题,本文主要对现有的离线强化学习数据集D4RL进行安装,并就出现的相关问题进行汇总

文章图片
深度强化学习系列(2): ERROR: GLEW initalization error: Missing GL version

当深度强化学习之(6)中的环境安装好之后,一阵欣喜,觉得可以干大事了,于是激动的不行,迫不及待的想看效果然而幸福来的太快就容易让人失望的越厉害,因此美好的事情总是值得多次磨砺废话不说了,爆出的错误是这样的Running trained modelCreating window glfwERROR: GLEW initalization error: Missing GL versi...

深度强化学习系列: “奖励函数”的设计和设置(reward shaping)

概述前面已经讲了好几篇关于强化学习的概述、算法(DPG->DDPG),也包括对环境OpenAI gym的安装,baseline算法的运行和填坑,虽然讲了这么多,算法也能够正常运行还取得不错的效果,但是一直以来忽略了一个非常重要的话题,那就是强化学习的《奖励函数》的设置。1、 Gym-Pendulum-v0例子分析奖励函数为什么要

离线强化学习(Offline RL)系列3: (算法篇) IQL(Implicit Q-learning)算法详解与实现

本文提出的 IQL(Implicit Q-learning) 直接没有去学习OOD之外的动作,而是用已知的state-action进行学习,通过使用SARSA style的方式重构策略和值函数(引入Expectile Regression) $L$ ,在策略的抽取方面采用了AWR(Advantage Weighted Regression)方式抽取,直接确定 $Q$ 值如何随着不同的动作而变化,并

文章图片
离线强化学习(Offline RL)系列2: (环境篇)D4RL数据集简介、安装及错误解决

强化学习快速发展的主要原因在于有一个良好的模拟环境,最终得到一个最优的policy, 然而现实问题就是在实际落地应用中没有有效的环境,为了解决实验环境问题,本文主要对现有的离线强化学习数据集D4RL进行安装,并就出现的相关问题进行汇总

文章图片
离线强化学习(Offline RL)系列3: (算法篇) CQL(Conservative Q-Learning)算法详解与实现

论文的主要思想是在QQ值基础上增加一个regularizer,学习一个保守的Q函数,作者从理论上证明了CQL可以产生一个当前策略的真实值下界,并且是可以进行策略评估和策略提升的过程。从代码的角度上来说,本文的regularizer只需要20行代码即可实现,大幅提升了实验结果。同时作者也全部opensource了代码,非常推荐研究。

文章图片
深度强化学习系列(9): Dueling DQN原理及实现

本文是DeepMind发表于ICML2016顶会的文章(获得Best Paper奖),第一作者Ziyu Wang(第四作Hado Van Hasselt就是前几篇文章#Double Q-learning#,Double DQN的作者),可以说DeepMind开创了DQN系列算法(后续阐述OpenAI的策略梯度算法)。往常一样,摘要结论。其实本文提出的算法并没有过多的数学过程,而是一种网络结构...

深度强化学习系列: 最全深度强化学习资料

关于这项工作:本工作是一项由深度强化学习实验室(Deep Reinforcement Learning Laboratory, DeepRL-Lab)发起的公益项目,共联合深度强化学习领域的30+位博士,100+位硕士共同完成。文章同步于Github仓库:https://github.com/NeuronDance/DeepRL/tree/master/A-Guide-Resource-F...

    共 17 条
  • 1
  • 2
  • 请选择