无人机追逃博弈论文读取有感
多智能体追逃博弈算法综述与未来方向 本文系统梳理了多智能体追逃博弈的算法框架,分为全局视野和局部视野两大类,并针对无人机局部观测场景提出推荐方案。 全局视野算法(如MADDPG、QMIX)依赖完整环境信息,虽在协同控制中表现良好,但难以适应真实场景中的部分观测问题,存在过拟合和泛化性差的缺陷。 局部视野算法(如MAPPO、MAAC)更适合无人机追逃场景,通过注意力机制、图神经网络或课程学习实现局部
🧭 一、全局视野(Global Observation)类框架
这些算法在训练或执行时,假设每个智能体都能获取整个环境的完整状态信息(例如所有无人机与目标的位置、速度等)。
框架 | 是否支持全局观测 | 典型用途 | 优点 | 缺点 |
---|---|---|---|---|
MADDPG | ✅(训练时 central critic 可见全局状态) | 多智能体连续控制(最早期 UAV 追逃研究常用) | 能处理连续动作、可见所有信息时效果好 | 执行时依赖 critic 信息,若切换到局部视野,性能骤降 |
MATD3 / M3DDPG | ✅(central critic 可访问全局) | 稳定版 MADDPG,连续控制 | 收敛更平稳 | 同 MADDPG,对部分可观测场景泛化差 |
QMIX / VDN | ✅(通过全局 Q 值组合) | 离散动作协作任务 | 高效、credit assignment 清晰 | 不支持连续动作,难迁移到 UAV 控制 |
COMA | ✅ | 协同博弈 credit assignment | 理论优雅 | 计算开销大、训练难度高 |
PSO-M3DDPG | ✅(优化器利用全局状态) | 优化型追逃(全局可见) | 搜索能力强 | 不适合部分可观测、噪声环境 |
差分博弈类 / 最优控制解法 | ✅ | 理论博弈分析(数学模型) | 可求最优策略 | 只能用于简化几何环境,无法扩展多机大规模场景 |
🧩总结:
-
这些算法假设信息共享或全局状态可见。
-
在你这种“局部视野无人机”下,会出现不稳定收敛、过拟合全局信息、无法泛化到执行环境的问题。
👁️ 二、局部视野(Partial / Local Observation)类框架
这类框架在设计上强调部分可观测(POMDP),即每个智能体只能看到自己局部邻域内的敌友信息——非常适合你的无人机追逃博弈场景。
框架 | 适配局部观测 | 原理 & 机制 | 优点 | 缺点 |
---|---|---|---|---|
MAPPO (with RNN) | ✅✅ | On-policy PPO 变体 + centralized critic;每个 actor 只看 local obs;critic 训练时聚合全局或部分邻居信息 | 收敛稳定、最常用于部分可观测 UAV 仿真(ETS-MAPPO、Dual Curriculum-MAPPO 都是这个) | On-policy 样本利用率较低 |
IPPO (Independent PPO) | ✅ | 每个 agent 完全独立训练 | 实现简单 | 无协作感知,易出现冲突 |
MAAC (Multi-Agent Attention Critic) | ✅✅ | critic 使用注意力机制选择性聚合他人信息(适合邻域通信) | 适应局部通信、动态邻域 | 模型复杂 |
DGN / GAT-based MARL | ✅✅ | 图神经网络建模邻居关系(例如 UAV 之间通信链) | 强协作、可扩展性好 | 训练复杂度高 |
CommNet / TarMAC / ATOC | ✅✅ | 基于可学习通信信道(自动决定信息传递) | 支持部分观测+显式通信 | 需要额外通信假设 |
HAPPO / HATRPO | ✅ | 高级 PPO 变体,保证理论收敛 | 对局部视野稳定 | 工程实现复杂 |
Curriculum + MAPPO | ✅✅ | 从低难度场景到高难度训练,局部视野 agent 学习复杂合作 | 训练效率高、泛化好 | 实现略复杂 |
PSO + Local MARL (Hybrid) | ✅ | 用粒子群搜索局部目标区间 + 局部 RL 决策 | 在部分观测下能提升逃逸鲁棒性 | 调参麻烦 |
✈️ 三、无人机追逃博弈场景推荐(你这种)
你的环境特征:
-
✅ 局部视野(每架 UAV 只能感知附近的敌我)
-
✅ 连续动作空间(速度 / 航向)
-
✅ 需要协作(包夹、分工)
-
⚙️ 环境可能有噪声与障碍
🔧 推荐算法(从“能跑”到“能发论文”的层级):
层级 | 算法组合 | 说明 | 适配度 |
---|---|---|---|
🟢 基础可行级 | MAPPO + GRU | 每个 actor 输入局部观测 + 历史记忆(RNN),critic 训练时集中 | ⭐⭐⭐⭐⭐ |
🔵 进阶协作级 | MAAC / DGN / CommNet-based MAPPO | 在 MAPPO 基础上加入通信或注意力机制 | ⭐⭐⭐⭐ |
🟣 强化鲁棒级 | Curriculum Learning + MAPPO / MAAC | 通过任务递进增强在复杂逃逸条件下的泛化 | ⭐⭐⭐⭐ |
🔴 研究创新级 | PSO-MAPPO / Attention-GNN MAPPO | 将优化算法或自注意力图结构结合,提升捕获率与智能分工 | ⭐⭐⭐⭐⭐(前沿论文方向) |
💡 简要总结一句话:
🔹 全局视野 → MADDPG、QMIX、MATD3、COMA、PSO-M3DDPG 等;
🔹 局部视野(你这种)→ MAPPO、MAAC、DGN、CommNet、TarMAC、ATOC、Curriculum-MAPPO。✅ 推荐你:MAPPO + GRU(基础) → 加入 Attention / CommNet(增强) → 再配 Curriculum(进阶),
这条路线现在是无人机追逃领域最常见、也是性能最优的技术路径。
首先想以下几个问题:
1,学长的论文都有哪些东西,目前做到了哪些方法?
哪些是优点?哪些是缺点?
2,追逃博弈都有哪些方法,各自的优缺点?
哪些最为突出?
3,目前有哪些痛点需要攻克呢?
目前已经有的多智能体协作的模型框架,以及里面效果最好的
1. 学长论文的研究内容与方法概览
已做到的方法:
-
提出了“有限视野追逃问题”,将传统追逃问题扩展为“搜索-追赶-找回”三个阶段。
-
分别针对二维和三维场景设计了两种不同的多智能体强化学习方法:
-
NAGC(归一化流演员-图注意力评论家):用于二维平面追逃,引入归一化流增强策略表达能力,图注意力网络捕捉空间拓扑特征。
-
MDS(多智能体值分布最大熵强化学习):用于三维空间追逃,采用值分布估计回报、双重经验回放池、课程学习等机制。
-
-
实验充分:在仿真环境中验证了算法在多种指标(成功率、任务时间、事故率等)上的优越性,并进行了泛化与消融实验。
-
实用性强:考虑了真实无人机参数、障碍物、通信限制等现实因素。
不足
1,未在真实无人机系统中部署验证
2,对通信延迟、传感器噪声等现实因素建模不够深入。
三维场景中逃逸者策略相对简单,未考虑更智能的对抗策略??????????详细说一下
2,当前追逃博弈研究的痛点与未来方向
三维空间复杂度高:无人机六自由度运动、障碍物遮挡、高度变化等增加了策略学习难度
现实约束未充分建模:如通信延迟、定位误差、部分无人机损毁、能量限制等
亟待攻克的方向:对抗性逃逸策略建模:逃逸者也使用强化学习,形成动态对抗博弈
针对于文中发现的逃跑者策略简单:
论文中已有的逃逸策略为何“简单”?
1. 随机运动策略
-
机制:在三个坐标轴上随机产生运动指令。
-
缺点:
-
无目的性:逃逸者的移动没有明确目标(如远离追赶者、寻找掩护),完全依赖于随机数
-
易于预测:从长远来看,随机游走的路径模式相对固定,智能的追赶者很容易学习并预测其行为趋势。
-
效率低下:它经常会“自投罗网”,主动撞向追赶者或进入死角,这降低了追逃问题的挑战性。
-
2. 斥力运动策略
-
机制:将追赶者视为斥力源,逃逸者沿着所有斥力的合力方向移动。
-
优点:比随机策略更“聪明”,有明确的“远离”动机。
-
缺点:
-
反应式而非预见性:它只对当前时刻的威胁做出反应,没有长远的路径规划。它不会“思考”比如“我向左逃,前面有个建筑可以掩护我;向右逃是一片开阔地,容易被围堵”。
-
容易被利用:由于其行为模式固定(永远朝着斥力合力方向),追赶者可以学习并利用这一点进行诱骗和围捕。例如,两个追赶者可以一左一右,将逃逸者驱赶到第三个等待的追赶者方向,或者驱赶到一个建筑死角。
-
忽略环境结构:它只考虑了追赶者的位置,没有利用环境中的障碍物进行隐蔽和摆脱追踪。在现实中,一个聪明的逃逸者一定会利用复杂环境来摆脱视野。
-
这两种策略都是静态的、基于规则的、非学习的。它们不具备从与追赶者的交互中“学习”并“进化”自身策略的能力。
提出策略:
更智能的对抗策略”?
智能的对抗策略应该让逃逸者具备学习能力、预测能力和战略性,使其行为更像一个真实的、意图明确的对手。
1. 基于学习的逃逸策略
这是最直接也是最强大的方法。就像追赶者使用强化学习一样,逃逸者也应该使用RL来学习最优逃逸策略。
-
观测空间:逃逸者同样拥有有限视野,只能感知到其视野内的追赶者位置、速度以及环境障碍信息。
-
动作空间:控制自身的姿态角和推力。
-
奖励函数:设计是关键,应鼓励以下行为:
-
最大化与最近追赶者的距离。
-
最小化被所有追赶者视野覆盖的时间(鼓励“躲猫猫”)。
-
积极利用障碍物遮挡追赶者视野。
-
惩罚被捕获(高额负奖励)。
-
惩罚撞墙或飞出空域。
-
-
效果:通过这种端到端的学习,逃逸者会自发地学会诸如“蛇形机动”、“绕柱飞行”、“利用建筑阴影”、“设置陷阱”(如引诱追赶者撞墙)等高级战术。
2. 基于预测与规划的策略
即使不使用学习,也可以设计更复杂的规则策略。
-
最优制导律:例如,逃逸者可以实时计算并朝着“视野丢失点”移动,即最快地跑到某个建筑的背后,从而脱离追赶者的视线。
-
图搜索算法:如果将环境抽象为一个图,逃逸者可以使用A、D等算法,规划出一条能最大化安全时间或最快到达安全区的路径。
-
基于博弈论的策略:逃逸者可以预测追赶者未来的行动(假设追赶者使用某种最优策略),并选择能最大化自己生存时间的反制动作。
3. 异构与多变的策略
一个真正智能的系统,其逃逸策略不应是单一的。
-
策略切换:逃逸者可以根据当前局势在不同的策略间切换。例如,当被紧密包围时采用高风险高收益的突围策略;当有周旋空间时采用消耗战策略。
-
“首领-追随者”模型:如果存在多个逃逸者,它们之间可以形成协同逃逸策略,如分头逃跑、互相掩护等。
对于系统脆弱且归因困难,当系统出错时,如何精准定位是“哪个智能体在哪一步”引入了致命错误,是一个长期存在的难题:
针对这个问题我找了一篇论文:
[2509.03312] AgenTracer:谁在诱导 LLM 代理系统失败?
本文开发了 AgenTracer-8B,这是一种经过多粒度强化学习训练的轻量级故障跟踪器,能够有效诊断冗长的多智能体交互中的错误,,它能够通过精准定位错误根因,将失败轨迹转化为高价值的训练样本,推动智能体系统走向自适应与自演化
关于通信这个痛点
论文中如何处理通信问题?
在论文的 2.1.1 和 2.2.1 节中,对问题进行了如下假设:
“(1)在整个区域和时间范围内,追赶无人机之间的通信是正常的;”
这意味著在学长的模型和算法设计中,他做了一个 “理想通信” 的假设:
-
无延迟:信息传递是瞬时的。
-
无丢失:通信链路100%可靠,没有数据包丢失。
-
无带宽限制:智能体之间可以共享任意数量的信息(在论文中,表现为共享各自的观测信息,如位置、速度,以及最重要的——逃逸者的实时坐标)。
在“理想通信”假设下,多智能体系统等价于一个“中央处理器”。每个智能体虽然分布式执行,但它们在决策时所依赖的信息(尤其是通过通信获得的友方和目标信息)是完整、一致的。这极大地简化了问题,使得算法可以专注于学习协同策略本身,而不需要处理因信息不一致、过时或缺失导致的协同失效。
看了很多论文最终截取出这几个:
科学网-基于自适应动态规划的量化通信下协同最优输出调节-Ouariel的博文
考虑了量化通信下多智能体系统的协同最优输出调节问题. 为降低通信负担, 利用取整量化器将智能体之间传输的浮点数数据转化为整数, 从而减少通信信道中传输数据的比特数. 通过将量化器引入编码−解码方案中, 设计分布式量化观测器, 保证在量化通信下, 每个跟随者对外部系统状态的估计误差渐近收敛至零. 在此基础上, 在多智能体系统动态未知的情况下, 提出基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决协同最优输出调节问题, 保证每个跟随者的输出信号渐近跟踪参考信号, 并抑制由外部系统产生的干扰信号. 最后, 在智能车联网自适应巡航控制系统上进行仿真实验并验证了所提方法的有效性. 结果表明与精确通信相比, 量化通信下比特数降低了58.33%.
Communication-Aware Coordination of Multi-Agent Systems under Spatio-Temporal Constraints
论文的核心问题是:当智能体之间的通信拓扑是稀疏的(并非所有智能体都能随时直接通信),但系统任务又存在严格的时空约束(例如,“在T时刻之前,三个无人机必须同时在区域A汇合”)时,如何实现协同控制。
1. 任务形式化工具:信号时序逻辑 (STL)
STL用于精确、无歧义地定义时空任务。它允许你在任务描述中嵌入时间和空间约束。
-
对你的研究的价值:你可以用STL来形式化追逃任务中的协同行为。例如:
-
φ_search = ◆[0,T] (∃i, FOV_i(pe))
(最终在T时间内,至少有一个智能i的视野内出现逃逸者pe) -
φ_capture = ◆[0,T] (∃i, ||pi - pe|| < δ_cap)
(最终在T时间内,至少有一个智能体与逃逸者的距离小于抓捕半径) -
φ_coordination = □[0,T] ( (FOV_i(pe)) → (◆[0,Δt] (FOV_j(pe))) )
(一旦智能体i发现目标,不久后智能体j也应保持视野接触)。这能直接帮你定义“搜索”、“追赶”、“找回”等阶段及其转换的逻辑条件。
-
2. 依赖关系建模工具:任务图 (Task Graph)
这是一个关键创新点。论文将整个系统任务分解为多个子任务,并构建一个有向图来明确智能体之间的任务依赖关系。
-
节点:代表子任务或智能体的状态。
-
边:代表依赖关系。特别是,智能体间的边明确表示了它们需要协作。
-
对你的研究的价值:在你的追逃问题中,可以构建如下依赖:
-
无人机A和B之间存在一条边,表示它们需要共同执行“包围”动作。
-
无人机C的“拦截”任务,可能依赖于A和B成功完成的“驱赶”任务。这张图使得协同逻辑一目了然。
-
3. 通信感知的任务分解与重路由
这是框架最核心的贡献,专门解决“有协作需求但无直接通信”的矛盾。
-
问题:任务图中显示智能体i和j需要协作,但当前的通信拓扑中,i和j没有直接通信链路。
-
解决方案:
-
依赖分解:将i和j之间的直接协作任务,分解成两个或多个可以通过现有通信链路完成的独立子任务。
-
依赖重路由:引入一个或多个中间智能体k(它与i和j都有通信链路),由k来中继信息,从而在i和j之间间接地建立协作关系。
-
-
对你的研究的价值:这直接解决了你关心的“通信丢包”或“通信范围限制”问题。例如,当两个追击者因距离过远无法直接通信时,可以通过第三个追击者中转目标位置信息,维持协同追踪。
4. 控制实现工具:控制屏障函数 (CBFs)
CBFs是一个数学工具,用于将STL规范的高层任务转化为保证系统安全(如避障、防撞)的底层控制律。它能确保智能体的运动始终满足预设的约束条件。
-
对你的研究的价值:你可以用CBFs来严格保证:
-
||pi - pj|| > δ_s
(智能体间保持安全距离) -
pi ∈ Ω
(智能体不离开空域) -
结合STL,甚至可以表达更复杂的时空约束。
-
更多推荐
所有评论(0)