从 “瞎点” 到 “精准执行”:Recon-Act 破解长流程网页任务难题,性能碾压传统方案
近年来,多模态模型取得了显著进展,为智能浏览器代理的发展铺平了道路。然而,在解决现实世界网页上的多轮、长时域任务时,当前的代理仍然存在行动序列混乱以及在执行过程中过度试错的问题。本文介绍了 Recon-Act,这是一个基于侦察–行动(Reconnaissance–Action)行为范式、能够自我进化的多智能体框架。该系统包含侦察团队(Reconnaissance Team)和行动团队(Action
摘要:近年来,多模态模型取得了显著进展,为智能浏览器代理的发展铺平了道路。然而,在解决现实世界网页上的多轮、长时域任务时,当前的代理仍然存在行动序列混乱以及在执行过程中过度试错的问题。本文介绍了 Recon-Act,这是一个基于侦察–行动(Reconnaissance–Action)行为范式、能够自我进化的多智能体框架。该系统包含侦察团队(Reconnaissance Team)和行动团队(Action Team):前者负责进行比较分析和工具生成,而后者则负责意图分解、工具编排和执行。通过对比错误轨迹与成功轨迹,侦察团队推断出补救措施,并将其抽象为“通用工具”的统一概念,这些工具可以表示为提示或基于规则的代码,并实时注册到工具库中。行动团队利用这些针对性的工具重新推断过程,从而建立了一个数据–工具–行动–反馈的闭环训练管道。按照本文提出的 6 级实施路线图,我们目前已达到第 3 级(需要有限的人工干预)。借助侦察获得的通用工具,Recon-Act 显著提高了对未见网站的适应能力和对长时域任务的解决能力,并在具有挑战性的 VisualWebArena 数据集上取得了最先进的性能。
论文标题: "Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution"
作者: "Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu"
发表年份: 2025
原文链接: "https://arxiv.org/pdf/2509.21072"
代码链接: "https://github.com/inclusionAI/AWorld/tree/main/examples/visualwebarena"
关键词: ["网页智能体", "双团队架构", "Recon-Act", "任务成功率", "VisualWebArena", "工具生成"]
核心要点:Recon-Act 创新性地提出由侦察团队与行动团队构成的双团队协作架构,在 VisualWebArena 数据集上实现 36.48% 的任务成功率,显著超越现有自动化智能体,同时通过减少自我纠正动作达成稳定的网页导航能力。
欢迎大家关注我的公众号:大模型论文研习社
往期回顾:大模型也会 “脑补” 了!Mirage 框架解锁多模态推理新范式,无需生成像素图性能还暴涨
研究背景与现有技术痛点
网页智能体作为自动化网页操作与用户辅助的核心技术,在数据采集、流程自动化、无障碍访问等领域具有重要应用价值。其通过模拟人类与网页界面的交互行为,能够有效降低人工操作成本,提升复杂任务处理效率。然而,当前网页智能体在实际应用中仍面临显著挑战,尤其在复杂视觉环境下的任务执行能力与人类水平存在巨大差距。
性能差距显著:人类在网页交互任务中的成功率可达 88.7%,而现有主流方法如 WebDreamer、TreeSearch 等的成功率仅在 23.6%-33.74% 之间,最高水平不足人类的 40%。
除成功率偏低外,现有技术还普遍存在交互步骤冗余、动态元素适应性差等问题。这些局限性导致网页智能体在处理包含弹窗、异步加载、复杂表单等场景时,常出现操作失误或流程卡顿。传统架构设计难以有效协调视觉理解与动作规划的关系,凸显了构建更高效协作机制的迫切需求。Recon-Act 双团队协作架构的研究动机正源于此,旨在通过创新的分工协作模式突破现有技术瓶颈,提升网页智能体的实际任务执行能力。
Recon-Act双团队协作架构总览
Recon-Act 双团队协作架构的设计理念源于军事行动中“侦察-执行”的协同逻辑,通过将任务拆解为环境感知与精准执行两大核心环节,构建人机协同的闭环工作流。该架构包含侦察团队与行动团队两个核心单元,前者聚焦于问题诊断与策略生成,后者负责任务落地与动态调整,二者通过工具代码与任务指令的交互形成有机协作,共同提升网页智能体在复杂场景下的任务成功率。
侦察团队:失败分析与策略生成的“侦察兵”
侦察团队(Reconnaissance Team)承担“战场侦察”职能,由分析师(Human) 与编码员(GPT-5-Chat) 组成,核心任务是通过预设侦察工具对历史失败轨迹进行深度分析,识别任务阻塞点并转化为可执行的补救策略。具体工作流程包括:首先利用日志分析工具提取任务执行过程中的关键节点数据(如页面元素定位失败、API 调用超时等),由分析师结合领域知识判断失败根因;随后编码员将补救策略转化为标准化工具代码(如自定义页面解析函数、动态等待逻辑等),为行动团队提供精准的“战术支援”。
行动团队:任务执行与资源调度的“行动队”
行动团队(Action Team)作为“一线作战单元”,由主管(Master)、工具管理器(Human) 与执行智能体(GPT-5-Chat) 构成,负责将侦察团队输出的策略转化为实际操作。主管角色承担任务规划与优先级排序,根据任务目标(如表单提交、数据爬取)拆解子任务并分配至执行智能体;工具管理器负责工具资源的动态调配,包括侦察团队生成的定制工具与系统默认工具库的调用权限管理;执行智能体则基于任务指令与工具支持,生成具体操作序列(如点击、输入、页面滚动等),并在执行过程中通过实时反馈机制调整策略,确保任务在动态网页环境中稳定推进。
双团队协作核心逻辑:侦察团队通过“失败分析-策略编码”为行动团队提供“战术工具包”,行动团队则通过“任务执行-结果反馈”为侦察团队提供“战场数据”,二者形成“分析-执行-反馈-优化”的闭环循环。这种架构的优势在于将人类的抽象决策能力与 AI 的代码生成能力深度融合,既避免了纯机器智能的“盲目试错”,又减少了人类介入的“效率损耗”。
通过上述分工,Recon-Act 架构实现了“问题诊断专业化”与“任务执行高效化”的平衡:侦察团队专注于复杂问题的深度分析,确保策略的准确性;行动团队聚焦于标准化任务的快速落地,提升执行效率。系统架构图直观展示了两个团队的人员构成、核心职责及信息交互路径,为理解人机协同机制提供了可视化参考。
核心贡献与关键结论
- 双团队协作架构显著提升任务成功率:实现36.48%的总体成功率,显著超越ExAct(33.74%)和TreeSearch(26.4%)等基线方法,验证了协作机制在复杂网页任务处理中的优越性。
- 构建场景化专用工具集扩展应用边界:提出11种专用工具(如ClassifiedsPriceSorter、RedditImageDescriptor),覆盖分类信息、Reddit和购物场景的决策与提示需求,增强智能体对特定领域任务的适配能力。
- 高效步骤控制与持续优化机制保障实用价值:平均步骤控制在4.9步,仅略高于人类水平,同时通过闭环训练持续优化工具集,在保证任务效率的前提下动态提升解决方案质量。
架构深度拆解与模块详解
Recon-Act 双团队协作架构通过侦察团队(Reconnaissance Team) 与行动团队(Action Team) 的闭环协作实现任务成功率提升,两团队分别聚焦于“策略优化”与“高效执行”,形成“诊断-改进-执行-反馈”的完整智能体能力进化链路。
侦察团队工作流
- 分析师对比失败轨迹,调用侦察工具推断原因
- 编码员将策略转化为工具代码(如ShoppingPriceSorter)
- 新工具注册到行动团队的工具管理器
行动团队执行流程
- 主管解析用户查询,选择工具调用
- 工具管理器维护决策工具(如UpVoter)和提示工具(如PostTimeFinder)
- 执行智能体生成默认操作,通过Playwright API在浏览器环境执行
实验验证与性能分析
多场景成功率对比
Recon-Act在VisualWebArena数据集上的总体成功率(36.48%)显著领先于其他方法,尤其在购物场景表现突出:
- 分类信息场景:39.32%(仅次于ExAct的41.0%)
- Reddit场景:27.14%
- 购物场景:39.27%(所有方法中最高)
专用工具集效果
11种工具覆盖三大场景,其中:
- 决策工具(如ClassifiedsPriceSorter)支持用户交互操作
- 提示工具(如RedditImageDescriptor)提供视觉内容理解辅助
未来研究方向与挑战
- 扩展工具集覆盖范围:开发视频控制、复杂表单填写等动态交互工具
- 提升侦察团队自动化水平:减少人工分析师参与,通过AI模型自主诊断失败原因
- 融合多模态输入:支持语音指令等自然交互方式
更多推荐
所有评论(0)