logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度强化学习与控制第二周课程报告

1. 基于策略的方法直接优化策略,代表算法有 REINFORCE、Actor-Critic、DDPG 和 SAC。2. 基于模型的方法先学习环境模型,再利用模型做规划或辅助训练,代表方法有 MPC、PETS 和 MBPO。3. 在连续控制任务中,SAC 和基于模型的方法都很重要,前者强调稳定高效的策略学习,后者强调利用模型提高样本效率。i%7D+

#人工智能#算法#机器学习
到底了