savadgaasg 个人主页

@savadgaasg

savadgaasg

2025-10-04 22:10:29 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

行为正则化与顺序策略优化结合的离线多智能体学习算法

在多智能体系统中，直接计算联合 Q 函数是一个极其复杂的问题，因为状态 - 动作空间会随着智能体数量的增加而指数级增长。值分解方法通过将联合 Q 函数分解为每个智能体的个体 Q 函数，极大地简化了这个计算过程。具体来说，联合 Q 函数 Q (s,a) 被表示为每个智能体 Q 函数 $Q_i$ 的组合。这种分解方式依赖于个体 - 全局 - 最大化（IGM）原则，即最优联合动作可以通过每个智能体的贪婪

#学习 #算法

到底了