茕离个人主页

@qq_45546210

茕离

2023-02-18 16:11:22 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

理解多智能体深度确定性策略梯度（MADDPG）：完整指南

多智能体深度确定性策略梯度（MADDPG）是 DDPG 的扩展版本，旨在解决多智能体环境中的非平稳性问题。它采用“集中式训练、分散式执行”的范式。构建一个简单的 2 智能体协作导航任务：状态：两名智能体位置、各自目标位置每个智能体观测：自己的位置、另一智能体位置、自己的目标位置（归一化）动作：离散（上/下/左/右）奖励：共享；每步小惩罚；两者同时到达各自目标给大正奖励；加入距离 shaping 与

#python #机器学习

到底了