logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度强化学习笔记06【总结:DDPG/TD3/SAC】

总结:1)DDPG解决DQN难以处理连续动作空间问题:DDPG = DQN + DPG;2)TD3解决过估计Q值问题:TD3 = DDPG + clipped double-Q learning + "delayed" policy updates + target policy smoothing;3)SAC将SPG与DDPG结合:SAC = DDPG + SPG + clipped doubl

文章图片
#深度学习#机器学习#人工智能 +1
深度强化学习笔记03【DDPG pytorch样例代码】

样例代码基于python中pytorch深度学习框架,环境为gym提供的摇摆钟控制,即通过控制钟摆旋转的角度使得其保持固定在某个特定位置(gym-Pendulum)

文章图片
#pytorch#人工智能#python +2
深度强化学习笔记01【Policy-Gradient/Actor-Critic/DQN/PPO】

本系列文为作者本人在学习过程中笔记,为本人复盘学习用,主观色彩浓厚,且仅适合对DRL有一定了解的人阅读!

文章图片
#深度学习#机器学习
到底了