猜忌的帅猎人个人主页

@qq_63396661

猜忌的帅猎人

2025-01-19 21:44:15 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深度强化学习与控制第二周课程报告

1. 基于策略的方法直接优化策略，代表算法有 REINFORCE、Actor-Critic、DDPG 和 SAC。2. 基于模型的方法先学习环境模型，再利用模型做规划或辅助训练，代表方法有 MPC、PETS 和 MBPO。3. 在连续控制任务中，SAC 和基于模型的方法都很重要，前者强调稳定高效的策略学习，后者强调利用模型提高样本效率。i%7D+

#人工智能 #算法 #机器学习

到底了