logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习 Reinforcement Learning(七)—— 值分布强化学习算法 C51

本文主要介绍值分布强化学习的一些基本概念,然后聊一聊值分布强化学习的开山之作 —— C51。

基于 Paddle2.0 的强化学习新玩法 —— 通关超级马里奥兄弟

超级马里奥兄弟作为几代人的童年回忆,陪伴了我们的成长。如今随着深度强化学习的发展,越来越多的游戏已经被 AI 征服,那么今天我们展示如何用深度强化学习,试着通关超级马里奥兄弟吧!

强化学习 Reinforcement Learning(五)—— 使用 K20 单片机玩一个 Q 学习小游戏

强化学习 Reinforcement Learning(五)—— 使用 K20 单片机玩一个 Q 学习小游戏目录强化学习 Reinforcement Learning(五)—— 使用 K20 单片机玩一个 Q 学习小游戏写在前面小游戏内容程序功能代码部分效果展示写在前面因为这个学期需要学习飞思卡尔的K20单片机,突发奇想看看能不能写个Q学习的小游戏让单片机自己玩一下。本文用到的单片机:Kineti

探索的大胜利——随机网络蒸馏(Random Network Distillation)

本项目是之前写过的一个项目项目——[好奇心驱动的强化学习](https://aistudio.baidu.com/aistudio/projectdetail/1434970)中鼓励探索机制(好奇心机制也是其中一种)的另一种形式,对好奇心还不是很熟悉的童鞋可以看看。

玩转星际争霸局部战斗 —— QMIX

这里写自定义目录标题写在前面QMIX 论文解读多智能体的相关工作Dec-POMDPDRQNIQL(Independent Q-Learning)VDN(Value Decomposition Networks)QMIXQMIX 结构核心——单调性约束在 aistudio 上运行 QMIX环境准备测试游戏环境QMIX 代码部分执行部分定义 agent 网络结构Mixing 网络定义策略与训练部分主函

单目纯视觉避障方案——2020中国机器人大赛FIRA避障仿真组决赛代码开源

单目纯视觉避障方案——2020中国机器人大赛FIRA避障仿真组决赛代码开源

探索的大胜利——随机网络蒸馏(Random Network Distillation)

本项目是之前写过的一个项目项目——[好奇心驱动的强化学习](https://aistudio.baidu.com/aistudio/projectdetail/1434970)中鼓励探索机制(好奇心机制也是其中一种)的另一种形式,对好奇心还不是很熟悉的童鞋可以看看。

强化学习 Reinforcement Learning(六)——好奇心驱动的强化学习

本文将讲述关于好奇心机制的主要内容,向读者展示什么是好奇心机制,最后复现 ICM ,并与我们熟悉的 DQN 相结合噢噢,差点忘了,本文的代码全部基于 paddle2.0rc 版本

Pix2Pix——基于GAN的图像风格迁移模型

本文是文献[Image-to-image translation with conditional adversarial networks](https://arxiv.org/abs/1611.07004)的笔记。Pix2Pix 基于 GAN 架构,利用成对的图片进行图像翻译,即输入为同一张图片的两种不同风格,可用于进行风格迁移。

#神经网络
强化学习 Reinforcement Learning(一)

简单理解强化学习(Reinforcement Learning)本文目录简单理解强化学习(Reinforcement Learning)什么是强化学习强化学习分类方法汇总什么是强化学习强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实

到底了