
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
基本介绍深度学习、强化学习;介绍深度强化学习流行算法;深度强化学习在机器人操作领域的应用现状;未来的发展方向作出总结与展望;深度学习通过学习深层的非线性网络结构和数据集的本质特征,实现函数的逼近。智能体在与环境交互的过程中,利用强化学习通过不断试错和最大化累积奖励来生成最优的行为策略。学者工作论文DeepMind将深度强化学习算法应用到连续动作领域,比如机器人操作和运动Heess基于分布式近端策略
robogym 基于 mujoco 搭建,构建了一个仿真机械臂桌面物体操作(pick-place、stack、rearrange)场景

robogym 基于 mujoco 搭建,构建了一个仿真机械臂桌面物体操作(pick-place、stack、rearrange)场景。

GPT-3 技术报告(模型对社会的影响部分)。

针对问题】双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解【提出】基于DDPG的双轮腿机器人控制方法【细节】(1)分析模型;(2)生成控制策略;(3)仿真对比实验;【效果】实现了快速稳定运动的功能,平均速度提高,姿态角偏移峰值减小;...
MAML RL 源代码解读 16
任务:在杂乱的场景中拾起物体设计了一种由吸盘和夹具组成的复合机械手,可以稳定地抓取物体。吸盘用于首先从杂物中抬起物体,夹持器用于相应地抓取物体。利用可见性图(affordance map)为吸盘提供像素级的吸取候选点。为了获得良好的观测图,在系统中引入了主动探索机制。设计了一种有效的度量方法来计算当前可见性图的奖励,并采用深度Q网络(DQN)引导机械手积极探索环境,直到生成的可见性图适合抓取。带吸
元强化学习 PEARL 项目解读
阅读PPO相关的源码,了解一下标准库是如何建立PPO算法以及各种tricks的,以便于自己的复现。在Pycharm里面一直跳转,可以看到PPO类是最终继承于基类,也就是这个py文件的内容。所以阅读源码就先从这里开始。: )
针对问题】双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解【提出】基于DDPG的双轮腿机器人控制方法【细节】(1)分析模型;(2)生成控制策略;(3)仿真对比实验;【效果】实现了快速稳定运动的功能,平均速度提高,姿态角偏移峰值减小;...







