logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

理解多智能体深度确定性策略梯度(MADDPG):完整指南

多智能体深度确定性策略梯度(MADDPG)是 DDPG 的扩展版本,旨在解决多智能体环境中的非平稳性问题。它采用“集中式训练、分散式执行”的范式。构建一个简单的 2 智能体协作导航任务:状态:两名智能体位置、各自目标位置每个智能体观测:自己的位置、另一智能体位置、自己的目标位置(归一化)动作:离散(上/下/左/右)奖励:共享;每步小惩罚;两者同时到达各自目标给大正奖励;加入距离 shaping 与

#python#机器学习
到底了