简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
深度强化学习笔记06【总结:DDPG/TD3/SAC】
总结:1)DDPG解决DQN难以处理连续动作空间问题:DDPG = DQN + DPG;2)TD3解决过估计Q值问题:TD3 = DDPG + clipped double-Q learning + "delayed" policy updates + target policy smoothing;3)SAC将SPG与DDPG结合:SAC = DDPG + SPG + clipped doubl
深度强化学习笔记03【DDPG pytorch样例代码】
样例代码基于python中pytorch深度学习框架,环境为gym提供的摇摆钟控制,即通过控制钟摆旋转的角度使得其保持固定在某个特定位置(gym-Pendulum)
深度强化学习笔记01【Policy-Gradient/Actor-Critic/DQN/PPO】
本系列文为作者本人在学习过程中笔记,为本人复盘学习用,主观色彩浓厚,且仅适合对DRL有一定了解的人阅读!
到底了