logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【深度强化学习】#1 DQN:深度Q学习

本文介绍了深度强化学习开山之作DQN算法,重点介绍了其核心思想与关键技术改进。首先阐述了传统Q-learning在连续状态空间下的局限性,提出用神经网络拟合Q函数的价值函数近似方法。完整介绍了DQN算法流程后,针对原始算法存在的两大问题:数据相关性和训练不稳定性,分别引入经验回放和目标网络两项关键技术。经验回放通过缓存和随机采样eph果克服数据相关性问题;目标网络通过解耦评估与目标计算来稳定Q值收

文章图片
#学习
【深度强化学习】#7 Soft Actor-Critic:最大熵与重参数化技巧

SAC(Soft Actor-Critic)是一种基于最大熵强化学习的Actor-Critic方法,通过引入策略熵来增强探索能力。相比确定性策略方法,SAC采用随机性策略和重参数化技巧,既降低了方差又提高了采样效率。其核心创新在于:1)在目标函数中引入策略熵项,鼓励多样化的探索;2)使用重参数化技巧将随机性与策略参数解耦,实现更稳定的梯度传播。SAC在连续控制任务中展现出优异的样本效率和鲁棒性,成

文章图片
【足式机器人算法】#2 奖励函数设计

本文系统阐述了足式机器人强化学习框架中的关键要素,重点解析了奖励函数的设计原理。观测空间包含本体感知、环境信息和任务指令;动作空间分为扭矩、速度/位置和步态三个层级,其中关节位置控制是主流方案。论文示例的奖励函数包含六大类:跟踪奖励(速度匹配)、稳定性奖励(抑制异常运动)、效率奖励(降低能耗)、平滑度奖励(减少抖动)、步态奖励(优化足端运动)和碰撞惩罚。这些奖励项通过加权组合,在保证运动性能的同时

文章图片
#机器人#算法
【分层强化学习】#1 引论:选项框架与半马尔可夫决策过程

在传统强化学习框架中,对于一个任务,智能体将从一个初始状态开始,在每一个时间步进行决策,直至到达终止状态后,所获得的经验将被用于更新每一个状态下的策略。正是这些问题催生了(Hierarchial Reinforce Learning,HRL)这一分支。引论将顺便介绍两个概念:选项框架和半马尔可夫决策过程,它们为HRL奠定了思想基石。

文章图片
#人工智能
【分层强化学习】#1 引论:选项框架与半马尔可夫决策过程

在传统强化学习框架中,对于一个任务,智能体将从一个初始状态开始,在每一个时间步进行决策,直至到达终止状态后,所获得的经验将被用于更新每一个状态下的策略。正是这些问题催生了(Hierarchial Reinforce Learning,HRL)这一分支。引论将顺便介绍两个概念:选项框架和半马尔可夫决策过程,它们为HRL奠定了思想基石。

文章图片
#人工智能
【分层强化学习】#1 引论:选项框架与半马尔可夫决策过程

在传统强化学习框架中,对于一个任务,智能体将从一个初始状态开始,在每一个时间步进行决策,直至到达终止状态后,所获得的经验将被用于更新每一个状态下的策略。正是这些问题催生了(Hierarchial Reinforce Learning,HRL)这一分支。引论将顺便介绍两个概念:选项框架和半马尔可夫决策过程,它们为HRL奠定了思想基石。

文章图片
#人工智能
    共 25 条
  • 1
  • 2
  • 3
  • 请选择