
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
使用深度强化学习控制移动机器人在复杂环境中避障、收集物品到指定点。所用到的算法包括DQN、Deuling-DDQN、A3C、DDPG、NAF。
传统的DQN只适用于离散动作控制,而DDPG和NAF是深度强化学习在连续动作控制上的拓展。
异步的优势行动者评论家算法(Asynchronous Advantage Actor-Critic,A3C)是Mnih等人根据异步强化学习(Asynchronous Reinforcement Learning, ARL) 的思想,提出的一 种轻量级的 DRL 框架,该框架可以使用异步的梯度下降法来优化网络控制器的参数,并可以结合多种RL算法。
小脑神经网络小脑神经网络(CMAC-Cerebellar Model Articulation Controller)是由Albus最初与1975年基于神经生理学提出的,它是一种基于局部逼近、简单快速的神经网络,能够学习任意多维非线性拟合。相比于BP网络等全局逼近方法,CMAC具有以下优点
深度双Q网络(DDQN)和基于竞争构架Q网络(Dueling-DQN)都是DQN的改进版本,前者是对DQN训练算法的改进,后者是对DQN模型结构的改进。
DQN(Deep Q-Learning)可谓是深度强化学习(Deep Reinforcement Learning)的开山之作,是将深度学习与增强学习结合起来从而实现从感知(Perception)到动作( Action )的端对端(End-to-end)学习的一种全新的算法。
异步的优势行动者评论家算法(Asynchronous Advantage Actor-Critic,A3C)是Mnih等人根据异步强化学习(Asynchronous Reinforcement Learning, ARL) 的思想,提出的一 种轻量级的 DRL 框架,该框架可以使用异步的梯度下降法来优化网络控制器的参数,并可以结合多种RL算法。
DQN(Deep Q-Learning)可谓是深度强化学习(Deep Reinforcement Learning)的开山之作,是将深度学习与增强学习结合起来从而实现从感知(Perception)到动作( Action )的端对端(End-to-end)学习的一种全新的算法。
传统的DQN只适用于离散动作控制,而DDPG和NAF是深度强化学习在连续动作控制上的拓展。
异步的优势行动者评论家算法(Asynchronous Advantage Actor-Critic,A3C)是Mnih等人根据异步强化学习(Asynchronous Reinforcement Learning, ARL) 的思想,提出的一 种轻量级的 DRL 框架,该框架可以使用异步的梯度下降法来优化网络控制器的参数,并可以结合多种RL算法。







