
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
行为正则化与顺序策略优化结合的离线多智能体学习算法
在多智能体系统中,直接计算联合 Q 函数是一个极其复杂的问题,因为状态 - 动作空间会随着智能体数量的增加而指数级增长。值分解方法通过将联合 Q 函数分解为每个智能体的个体 Q 函数,极大地简化了这个计算过程。具体来说,联合 Q 函数 Q (s,a) 被表示为每个智能体 Q 函数 $Q_i$ 的组合。这种分解方式依赖于个体 - 全局 - 最大化(IGM)原则,即最优联合动作可以通过每个智能体的贪婪
到底了