
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
深度强化学习与控制第二周课程报告
1. 基于策略的方法直接优化策略,代表算法有 REINFORCE、Actor-Critic、DDPG 和 SAC。2. 基于模型的方法先学习环境模型,再利用模型做规划或辅助训练,代表方法有 MPC、PETS 和 MBPO。3. 在连续控制任务中,SAC 和基于模型的方法都很重要,前者强调稳定高效的策略学习,后者强调利用模型提高样本效率。i%7D+
到底了







