logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

行为正则化与顺序策略优化结合的离线多智能体学习算法

在多智能体系统中,直接计算联合 Q 函数是一个极其复杂的问题,因为状态 - 动作空间会随着智能体数量的增加而指数级增长。值分解方法通过将联合 Q 函数分解为每个智能体的个体 Q 函数,极大地简化了这个计算过程。具体来说,联合 Q 函数 Q (s,a) 被表示为每个智能体 Q 函数 $Q_i$ 的组合。这种分解方式依赖于个体 - 全局 - 最大化(IGM)原则,即最优联合动作可以通过每个智能体的贪婪

#学习#算法
到底了