logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习之DQN超级进化版Rainbow

阅读本文前可以先了解我前三篇文章《强化学习之DQN》《强化学习之DDQN》、《强化学习之 Dueling DQN》。Rainbow结合了DQN算法的6个扩展改进,将它们集成在同一个智能体上,其中包括DDQN,Dueling DQN,Prioritized Replay、Multi-step Learning、Distributional RL、Noisy Net。加上原版的DQN,凑齐七种因素,召

#机器学习#神经网络#深度学习
强化学习科研知识必备(数据库、期刊、会议、牛人)

本文为收集了网上资料整理而成,不一定完全正确,但具有一定的参考意义,能够为初入科研的小白指引道路。

#人工智能#深度学习#计算机视觉
强化学习中的自我博弈(self-play)

但随着训练的进行,探索奖励应当逐渐衰减为0。第二是对手抽样,智能体在面对过强或过弱的对手时,训练都会难以取得成效,因此环境中需要存储对手不同时期的训练版本,让较弱的一方有机会获胜,较弱的一方策略提升的同时会反过来促进较强一方变得更强。为了判断智能体的强弱,使自我博弈使用水平相近的智能体进行对抗训练,根据ML-Agents中的做法,较好的解决方式是引入ELO评级系统,这是一种计算零和游戏中两个玩家之

文章图片
WSL2端配置pytorch GPU加速环境

配置好WIn10的Linux子系统WSL2的GPU加速深度学习,我踩坑踩得头皮发麻

#pytorch#深度学习#python
Google Colab及其使用

注意:本文不提供访问外网的方法,默认你已能自由访问外网。Colaboratory 是一个 Google 研究项目,旨在帮助传播机器学习培训和研究成果。它是一个 Jupyter 笔记本环境,不需要进行任何设置就可以使用,并且完全在云端运行。Colaboratory 笔记本存储在 Google 云端硬盘中,并且可以共享,就如同您使用 Google 文档或表格一样。Colaboratory 可免费使用,

#经验分享#机器学习#深度学习
强化学习之AC、A2C和A3C

阅读本文可参考我以前的文章《强化学习实践教学》https://tianjuewudi.gitee.io/2021/07/16/qiang-hua-xue-xi-shi-jian-jiao-xue/#toc-heading-29,其中的连续动作空间上求解RL章节是本文的基础,其中的DDPG和Actor-Critic除了Target网络外其余都一致。首先,A2C的全称是Advantage Actor

#人工智能#机器学习#神经网络
ML-Agents案例之机器人学走路

本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Ag

文章图片
多智能体强化学习之QMIX

论文:QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning参考博客:多智能体强化学习入门(五)——QMIX算法分析、多智能体强化学习入门QMIX参考书籍:《深度强化学习学术前沿与实战应用》MARL中如何表示和使用动作价值函数使得系统达到一个均衡稳态是多智能体系统的目标。IQL

ML-Agents案例之机器人学走路

本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。我前面的相关文章有:ML-Agents案例之CrawlerML-Ag

文章图片
强化学习之AC、A2C和A3C

阅读本文可参考我以前的文章《强化学习实践教学》https://tianjuewudi.gitee.io/2021/07/16/qiang-hua-xue-xi-shi-jian-jiao-xue/#toc-heading-29,其中的连续动作空间上求解RL章节是本文的基础,其中的DDPG和Actor-Critic除了Target网络外其余都一致。首先,A2C的全称是Advantage Actor

#人工智能#机器学习#神经网络
    共 12 条
  • 1
  • 2
  • 请选择