前言

大型语言模型(LLMs)的飞速发展,催生出了一类全新的自主人工智能系统 —— 深度研究(DR)智能体。这类智能体旨在应对复杂的多轮信息研究任务,其核心优势在于融合了动态推理、自适应长程规划、多跳信息检索、迭代式工具使用以及结构化分析报告生成等能力。

分享人批注:最近,有几个未深入到agent领域工业开发的开发和算法同学有问到过我,agent产品领域跟直接用大模型去干事情有啥区别?其实浅显来理解,也就是加粗的内容,对比直接使用模型,这些产品大多就是融合了上述加粗的能力。针对不同的业务不同,可能还会有更多样化的能力。

在本文中,我们将深入剖析构建深度研究智能体的基础技术与架构组件:首先梳理信息获取策略,对比基于 API 的检索方式与基于浏览器的探索模式;接着分析模块化工具使用框架,包括代码执行、多模态输入处理,以及如何通过模型上下文协议(MCPs)实现扩展性与生态系统构建;为了规范现有研究方法,我们提出了一套分类体系,不仅区分静态与动态工作流,还依据规划策略和智能体构成(单智能体与多智能体架构)对智能体进行分类

分享人批注:这里介绍的就是研究智能体中核心的一些技术框架设计,一个信息获取模块,一个是工具使用模块,还提到了规划策略(可以粗分为计划模块吧)。这里未提起的是上下文的处理(粗略记为记忆模块),大体是作者觉得研究智能体一般是workflow的形式居多?不过下文也是有上下文如何处理的介绍的~

同时,我们对当前的评测基准进行了批判性评估,指出其存在的关键局限 —— 例如外部知识获取受限、串行执行效率低下、评测指标与深度研究智能体的实际目标脱节等。最后,我们梳理了当前面临的开放挑战,并指明了未来的研究方向。

1 引言

近年来,大型语言模型(LLMs)的突破性进展,推动了具备自主研究能力的复杂 AI 智能体快速崛起。早期模型如 GPT-3 [11],主要聚焦于孤立任务,比如问答和机器翻译;随后,通过与外部工具的结合,WebGPT [73] 等模型实现了自主浏览网页、整合多源信息的能力;而如今,一类更先进的自主系统 —— 深度研究(DR)智能体应运而生,典型代表包括行业领先的 OpenAI DR [78]、Gemini DR [33]、Grok DeepSearch [124] 和 Perplexity DR [81]。这类智能体在 LLMs 的基础上大幅拓展能力边界,融入了高级推理、动态任务规划以及与网络资源、分析工具的自适应交互功能。

我们对 “深度研究智能体” 给出如下正式定义:

深度研究智能体是由 LLMs 驱动的 AI 智能体,通过融合动态推理、自适应规划与迭代式工具使用,实现外部信息的获取、聚合与分析,最终生成全面的输出结果,以完成开放式信息研究任务。

具体来说,深度研究智能体以 LLMs 为认知核心,通过网页浏览器和结构化 API 实时获取外部知识,并借助定制化工具集或标准化接口(如模型上下文协议 MCP)动态调用分析工具。这种架构让智能体能够无缝整合推理过程与多模态资源,自主完成复杂的端到端研究工作流。

与传统的检索增强生成(RAG)方法 [95](主要提升事实准确性,但缺乏持续推理能力 [17])和常规工具使用(TU)系统 [85](严重依赖预定义工作流 [114])相比,深度研究智能体具备更强的自主性、持续深度推理能力、动态任务规划能力以及自适应实时交互能力。这些优势使其能轻松应对复杂、动态且知识密集的研究场景。

图 1 展示了一个典型的深度研究智能体架构,清晰呈现了从用户输入到最终输出的完整工作流:从用户输入出发,经过可选的规划与意图澄清环节,进入迭代式工具使用阶段(包括离线检索 —— 向量数据库与关系型数据库、在线检索 ——API 与浏览器,以及扩展能力 —— 数据分析、编码等),最终生成多模态内容,并输出结构化的综合报告。

在这里插入图片描述

1.1 研究贡献

本文系统性地回顾了深度研究智能体的最新进展,全面分析了核心技术、方法体系、优化流程及典型实现,具体贡献包括:

  • • 深入剖析典型深度研究系统,明确分析其系统架构、检索机制、工具调用方法、性能特征,以及优化调优范式;
  • • 提出一套统一的分类框架(图 4),基于工作流特征(静态 vs 动态)、规划策略和智能体架构(单智能体 vs 多智能体)对深度研究系统进行分类,衔接不同技术方法与当前行业解决方案;
  • • 系统梳理并分类用于评估深度研究系统的现有基准,阐明这些基准如何衡量检索准确性、推理深度、自适应工具调用熟练度等关键能力;
  • • 深入分析当前面临的关键开放挑战与研究方向,重点关注突破传统检索范围、实现异步并行执行、构建全面多模态基准、优化多智能体架构以提升鲁棒性与效率等方向。

1.2 文章结构

本文围绕深度研究智能体的最新进展展开,结构如下:

  • • 第 2 章:基础概念,梳理推理、检索增强生成、智能体通信协议的最新进展;
  • • 第 3 章:核心组件分析,包括搜索引擎集成(3.1)、工具调用策略(3.2)、架构工作流(3.3)、优化方法(3.4);
  • • 第 4 章:行业应用,介绍领先机构开发的深度研究智能体的实际应用与实现;
  • • 第 5 章:评测基准,将现有基准分为问答类与任务执行类,梳理其应用场景;
  • • 第 6 章:挑战与展望,指出提升信息获取能力、实现异步并行执行、对齐评测基准、优化多智能体架构等方向的挑战与机遇;
  • • 第 7 章:结论,总结全文并探讨深度研究智能体研究的广泛意义与未来机遇。

2 背景与基础概念

2.1 推理与工具集成的进展

近年来,大型推理模型(LRMs)的发展大幅提升了语言模型处理复杂抽象任务的能力。在算术运算、常识推理、符号问题求解等任务中,这类模型的性能显著提升,这主要得益于模型架构与训练技术的创新。

其中,Wei 等人 [116] 提出的 “思维链(CoT)提示” 是一项关键突破 —— 它引导模型明确阐述中间逻辑步骤,将复杂问题分解为简单的序列任务,不仅提升了 LLMs 在各类推理基准上的准确性,还增强了结果的可解释性。在此基础上,后续研究进一步优化 LLM 的推理能力,尤其针对长文本上下文处理:例如,位置插值、稀疏注意力机制 [9,113] 等方法扩展了模型的有效上下文窗口;LongBench [10]、LongFinanceQA [61] 等专用基准则为评估和提升模型的长上下文推理能力提供了支撑。

为了应对需要实时或专业外部知识的推理任务,研究者提出了 Toolformer [87]、MultiTool-CoT [46] 等框架,让 LLMs 能在推理过程中自主整合外部计算资源与 API,大幅提升了模型在精确数值计算、动态信息检索等任务中的表现。

此外,多轮对话中的推理连贯性也是一大挑战。Dialogue CoT [13]、Structured CoT(SCoT)[99] 等技术将对话状态与上下文融入推理链,显著提升了模型的连贯性、上下文感知能力,以及处理迭代交互、澄清复杂用户查询的能力。

不过,现有推理框架仍存在关键问题:幻觉现象、内部知识静态或过时、对快速变化的信息需求响应不足。这些局限凸显了整合外部信息源、实时检索机制、自适应推理策略的必要性 —— 而这正是推动深度研究智能体发展的核心动力。

2.2 检索增强生成与智能体化检索的进展

检索增强生成(RAG)通过结合外部知识库(如网页、API),有效缓解了模型幻觉问题,提升了网络信息搜索的准确性 [24,28,95]。早期 RAG 架构采用静态流程:检索器从维基百科、搜索引擎等外部源获取相关文档,生成器(如 LLMs)仅基于这些检索片段生成答案。但静态方法难以处理复杂多步查询,因此研究者开发了 FLARE [133]、Self-RAG [7]、IAG [134]、ToC [54] 等迭代式、交互式检索机制,以生成更丰富、更相关的响应。

同时,研究 [48,62] 将检索源从维基百科等结构化数据库扩展到大规模多样化网络语料(如通过 CCNet 流程 [27] 预处理的 Common Crawl 数据集);还有研究 [6] 提出混合方法,结合 LLM 内部知识与外部检索,提升准确性与连贯性;Huang 等人 [44] 提出的 RAG-RL 则引入强化学习与课程学习技术,让推理语言模型(RLMs)能更高效地识别和利用相关上下文。

尽管检索方法与推理增强模型取得了这些进展,RAG 仍存在局限 —— 难以管理复杂推理流程、无法动态适应不同任务需求。为解决这些问题,研究者将 RAG 扩展为 “智能体化” 范式,在传统 RAG 流程之上增加推理与决策层 [95]。智能体化 RAG 通过迭代检索、自适应查询、动态工作流调整,显著提升了多步推理能力:例如,基于 RL 的查询优化技术(如 Hsu 等人 [42] 的方法)改善了复杂查询的检索效果;基于图的检索(如 GeAR [93])则增强了多跳查询处理能力。

但智能体化 RAG 仍面临挑战:动态推理过程的计算开销平衡 [95]、智能体行为与用户意图的对齐 [132]、自适应工作流的可解释性 [42,95]。更关键的是,即使是先进的智能体化 RAG,仍依赖预存或定期更新的语料库,难以应对实时、快速变化或长尾信息需求。为突破这一局限,需将外部 API 与网页浏览能力融入 RAG 架构 —— 这也正是深度研究(DR)方法的核心目标:进一步提升检索的全面性与适应性。

2.3 模型上下文协议与智能体间协议

为解决基于 LLM 的智能体系统的互操作性问题,实现高效工具访问与多智能体协作,研究者提出了模型上下文协议(MCP)与智能体间(A2A)协议。

2.3.1 模型上下文协议(MCP)

传统工具使用(TU)智能体面临诸多难题:API 不统一、维护成本高、开发重复,严重限制了系统间的互操作性 [87]。为此,Anthropic 提出了 MCP—— 一套统一的通信层,让基于 LLM 的智能体能通过标准化接口,安全、一致地与外部服务和数据源交互。MCP 通过动态服务发现与统一访问模式,有效解决了数据孤岛问题。

2.3.2 智能体间协议(A2A)

谷歌提出的 A2A 协议通过结构化的任务导向对话,实现了去中心化的多智能体协作。来自不同厂商、采用不同模型架构的智能体,能像平等参与者一样发现同伴、分配任务、协作处理复杂任务 [32]。A2A 将智能体发现抽象为 “智能体卡片(Agent Cards)”,将任务协调抽象为 “任务(Tasks)与成果(Artefacts)”,支持灵活、增量式的多模态工作流,非常适合复杂协作场景。

MCP 与 A2A 相辅相成:MCP 作为访问外部工具的标准化接口,A2A 负责协调智能体间的协作,二者共同为构建开放、可互操作的智能体生态系统奠定了模块化、可扩展的基础,大幅提升了 AI 系统处理复杂现实问题的实际能力。

3 深度研究智能体的核心组件:搜索引擎、工具使用、工作流、调优、非参数化持续学习

与传统 RAG 方法相比,深度研究智能体的核心优势在于将动态检索、实时工具使用(TU)、自适应推理整合到统一系统中。传统 RAG 依赖固定流程,难以应对复杂多步查询或快速变化的上下文;而深度研究智能体通过实时与外部工具交互、管理多阶段研究任务,具备更强的自主性、上下文感知能力与准确性。

分享人批注:固定-》变化的一种演变

本章将围绕深度研究智能体开发与优化的五大核心组件展开:

    1. 搜索引擎集成:对比基于 API 的接口与基于浏览器的探索,提升动态知识获取能力;
    1. 工具使用能力:分析代码执行、数学计算、文件操作、多模态处理模块如何融入智能体的推理流程;
    1. 架构工作流:梳理基础设计、单 / 多智能体架构的平衡、记忆机制、辅助组件,以实现复杂研究工作流的协调;
    1. 调优方法:探讨基于提示的结构化生成、LLM 驱动提示、微调策略、强化学习等优化智能体性能的方法;
    1. 非参数化持续学习:让 LLM 智能体无需更新内部模型权重,通过动态调整外部工具、记忆、工作流实现自我进化,为复杂任务提供可扩展优化方案。

3.1 搜索引擎:API vs 浏览器

为提升处理动态任务的推理深度与准确性,深度研究智能体需通过搜索引擎(SE)与外部环境交互,更新自身知识。表 1 【表太长不好放,读原文】梳理了现有深度研究智能体采用的搜索引擎、基础模型与评测基准,其中搜索引擎主要分为两类:

    1. 基于 API 的搜索引擎:与结构化数据源(如搜索引擎 API、学术数据库 API)交互,高效获取规范化信息;
    1. 基于浏览器的搜索引擎:模拟人类与网页的交互,实时提取动态或非结构化内容,提升外部知识的全面性。

3.1.1 基于 API 的检索:高效结构化信息获取

基于 API 的检索方式速度快、效率高、可扩展性强,能以较低延迟和计算开销为深度研究智能体提供外部知识。例如:

  • • Gemini DR [33] 整合谷歌搜索、arXiv 等多个 API,实现对数百至数千个网页的大规模检索,大幅扩展信息覆盖范围;
  • • Grok DeepSearch [124] 通过新闻源、维基百科 API、X 平台原生接口维护实时更新的索引,还能根据查询动态派遣智能体分解问题、生成目标子查询并实时获取相关网页;
  • • Perplexity DR [81] 先爬取数百个信息源,再通过聚合分析生成最终报告;
  • • Cognitive Kernel-Pro [109] 利用免费的 DuckDuckGo 搜索接口,构建了完全开源、低成本的深度研究流程;
  • • Agentic Reasoning、ReSearch、R1-Searcher、SWIRL [122,16,96,30] 等系统则明确训练模型 “何时检索、检索什么、如何将检索证据融入推理过程”;
  • • PANGU DeepDiver [94] 通过强化学习,根据任务难度动态调整检索强度;
  • • Agent Laboratory [89] 调用 arXiv API 提取论文元数据与摘要,实现文献综述自动化;
  • • AI Scientist [63] 查询 Semantic Scholar API,验证模型生成想法的新颖性与引文关系;
  • • CoSearch-Agent [31] 整合 SerpApi,在 Slack 平台实现实时搜索;
  • • DeepRetrieval [49] 在强化学习框架下优化 PubMed、ClinicalTrials.gov API 的查询策略,提升生物医学领域的检索召回率;
  • • Search-o1 [58] 结合必应搜索 API 与 Jina Reader API,动态提取并优化文本片段,为后续推理提供支持。

不过,基于 API 的检索也有局限 —— 难以处理嵌套较深的客户端 JavaScript 渲染内容、交互式组件或需要身份验证的资源,因此需要结合基于浏览器的检索方式,以获取动态或非结构化信息。

3.1.2 基于浏览器的检索:动态非结构化信息获取

基于浏览器的检索通过模拟人类浏览器交互,让深度研究智能体能动态、灵活地获取多模态与非结构化网页内容。例如:

  • • Manus AI 的浏览智能体为每个研究会话启动一个沙盒化的 Chromium 实例,能自动打开新标签页、执行搜索查询、点击结果链接、滚动网页至满足内容阈值、填写表单、执行页面内 JavaScript 以加载延迟内容、下载文件或 PDF 进行本地分析 [66];
  • • 尽管 OpenAI DR、Grok DeepSearch、Gemini 2.5 DR 未公开浏览功能细节,但它们能处理交互式组件、动态渲染内容和多步导航,这表明其背后很可能采用了类似的无头浏览器框架;
  • • 在开源研究中,AutoAgent [131] 在 BrowserGym 环境中实现滚动、页面组件交互、文件下载(当 API 不可用时);
  • • DeepResearcher [135] 专门设计了网页浏览智能体:收到浏览请求后,逐段处理网页内容,根据相关性判断是否继续处理下一段,将相关信息增量聚合到短期记忆中,再返回给推理模块;
  • • Kimi-Researcher [70] 通过内置文本浏览器的搜索引擎获取信息;
  • • Search-R1、MiroRL [52,107] 在训练过程中同时使用搜索与浏览器工具;
  • • AutoGLM [137] 通过 “规划 - 执行” 循环实现浏览功能:打开并读取网页,在浏览器操作过程中加入 “反思” 环节,优化证据质量并生成长篇报告;
  • • Genspark Super Agent [106] 采用 “多智能体融合” 架构:研究子智能体负责网页搜索与内容读取,将结构化笔记传递给下游写作 / 分析智能体,而非依赖单一浏览器;注:“多智能体融合(Mixture of Agents)” 指由 9 个基础模型组成的集成架构,包括 GPT-4.1、GPT-o3、GPT-o4-mini-high、Claude-Sonnet-3.7-Thinking、Claude-Sonnet-3.7、Gemini-2.0-Flash、Gemini-2.5-Pro、DeepSeek-V3、DeepSeek-R1。
  • • SimpleDeepSearcher [100] 采用轻量级 “搜索 - 获取 - 总结” 循环:结合网页搜索 API 与 HTTP 获取(而非完整浏览器自动化),先缓存网页并压缩,再进行后续推理;
  • • Tool-Star [22] 明确区分 “搜索引擎工具” 与 “网页浏览器智能体”:检索链接后,浏览器智能体打开网页、提取关键片段、将压缩后的证据返回给规划模块;
  • • AgenticSeek [67] 将本地元搜索前端与无头隐身浏览器结合,支持智能体在实时网站上点击、滚动、提交表单,并提供 “预算控制”“反机器人鲁棒性” 等可调节参数;
  • • AWorld [8] 提供多智能体运行时环境,内置浏览器自动化与追踪功能,支持多个智能体分工协作,完成动态网站的深度研究任务;
  • • WebThinker [59] 通过执行搜索、跟随结果页面链接的方式获取信息;
  • • WebDancer、WebSailor、WebShaper [120,57,104] 将网页搜索与页面内导航结合,采用 ReAct 风格的闭环流程:先横向定位候选信息源,再纵向深入分析,以紧凑的动作空间换取训练稳定性与更强的泛化能力;
  • • WebWatcher [29] 利用谷歌 SerpApi 实现多模态搜索,并通过基于 OCR 的图像处理模拟浏览器交互。

基于浏览器的检索能获取 API 无法触及的实时、嵌套内容,但也存在延迟高、资源消耗大、页面多样性与错误处理复杂等问题。因此,深度研究智能体若采用 “API 高效检索 + 浏览器全面探索” 的混合架构,往往能实现更优性能。

3.2 工具使用:为智能体赋予扩展能力

表 2 梳理了不同深度研究智能体的工具使用能力(包括代码解释器、数据分析、多模态处理)。为提升智能体在复杂研究任务中与外部环境的交互能力,尤其是主动调用和处理各类工具与数据源的能力,当前深度研究智能体主要集成了三类核心工具模块:代码解释器、数据分析工具、多模态处理工具,同时结合模型上下文协议(MCP)实现统一调度。

3.2.1 代码解释器:动态脚本执行

代码解释器让深度研究智能体能在推理过程中执行脚本,实现数据处理、算法验证、模型模拟等功能。除 CoSearchAgent 外,大多数深度研究智能体都嵌入了脚本执行环境,通常依赖 Aider 等 Python 工具或 Java 工具协调动态脚本,完成基于文献的分析、实时计算推理等任务。

3.2.2 数据分析:从原始数据到结构化洞察

通过集成数据分析模块,深度研究智能体能将原始检索数据转化为结构化洞察 —— 例如计算汇总统计量、生成交互式可视化图表、进行定量模型评估,从而加速假设验证与决策过程。

许多商用深度研究智能体已实现图表绘制、表格生成、统计分析等数据分析功能(支持本地或远程服务),但大多未公开技术细节;而学术研究则提供了具体案例:

  • • CoSearchAgent [31] 在团队通信平台中整合 SQL 查询,实现聚合分析与报告生成;
  • • AutoGLM [137] 直接从网页表格界面提取结构化数据集并进行分析。

3.2.3 多模态处理与生成:融合异构数据

多模态处理与生成工具让深度研究智能体能在统一推理流程中整合、分析、生成文本、图像、音频、视频等异构数据,提升上下文理解能力,扩展输出形式。

目前,仅有部分成熟的商用与开源项目支持这一能力(如 Manus [66]、OWL [12]、AutoAgent [101]、AutoGLM [137]、OpenAI [78]、Gemini [33]、Perplexity [81]、Grok DeepSearch [124]),多数学术原型因计算成本高而未实现。在开源项目中,OWL、OpenManus [12,60] 扩展了工作流,支持与 GitHub、Notion、谷歌地图等平台交互,并利用 Sympy、Excel 等数值库实现数据分析与多模态媒体处理的结合。

3.2.4 具备计算机使用能力的深度研究智能体

近期,深度研究智能体的能力边界进一步扩展 —— 融入了计算机辅助任务执行能力(即 “计算机使用”)。例如,智谱 AI 推出的 AutoGLM Rumination [137] 是一套基于强化学习的系统,整合了自我反思与迭代优化机制,大幅提升了多步推理与高级函数调用能力

具体来说,AutoGLM Rumination [137] 能自主与网络环境交互、执行代码、调用外部 API,高效完成数据检索、分析、结构化综合报告生成等复杂任务。与 OpenAI DR 相比:OpenAI DR 主要聚焦于复杂推理与信息检索,而 AutoGLM Rumination 在实际执行自主性上更具优势 —— 它能将抽象分析洞察转化为具体操作任务(如自动与网页界面交互、实时数据处理),还能通过融合高级推理能力与真实浏览器交互,解决模拟浏览环境的局限,从而可靠访问需要用户认证的资源(如知网、小红书、微信公众号),显著提升了智能体在信息获取与现实任务执行中的自主性与适应性。

此外,OpenAI DR、Perplexity DR、Grok DR、H2O、Manus、Genspark Super Agent [78,81,124,39,66,106] 通过协调浏览器 / 工具使用、代码执行、数据分析,实现了工业级规模的多步网页研究,并生成带引用的结构化报告;OWL、OpenManus、Suna、DeerFlow、WebThinker、AgenticSeek、AWorld [12,60,4,20,59,67,8] 提供开源工具栈,整合浏览器自动化、代码解释器、MCP 风格工具,支持端到端深度研究工作流;AutoGLM Rumination、Tool-Star、Kimi-Researcher、MiroRL [137,22,70,107] 通过强化学习或自我反思优化搜索规划、工具与代码调用,提升多步推理自主性;AI Scientist、Storm、Agent Laboratory、Agent-R1、AutoAgent、CoSearchAgent [63,91,89,80,101,31] 通过工具增强的研究流程,实现文献综述、代码 / 实验执行、结构化文档生成自动化;Towards an AI co-scientist、O-agents [34,140] 提供了构建、训练、评估工具使用型研究智能体的蓝图与实证方案;Agent-KB [103] 提出基于知识库的跨域经验迁移框架,提升复杂任务泛化能力;微软 Copilot Researcher [69] 将多步研究与数据分析嵌入 Microsoft 365 生态,在企业工作流中生成报告与图表;Alita [84] 探索自进化智能体,能生成并封装 MCP 工具,结合代码执行能力,在最小化预定义 schema 的前提下扩展功能。

3.3 架构与工作流

如图 4 所示,本章将系统分析深度研究系统的构建,重点关注 “静态” 与 “动态” 两类工作流:首先介绍静态工作流,再探讨规划策略(通过三种用户交互方式澄清意图:仅规划、意图到规划、意图 - 规划统一);接着对比动态工作流中的单智能体与多智能体系统,分析其任务管理的专业化分工;最后探讨用于管理和整合检索信息的记忆机制,以提升深度研究系统的性能与适应性。

3.3.1 静态工作流 vs 动态工作流

静态工作流:预定义的结构化流程

静态工作流依赖人工预定义任务流程,将研究过程分解为串行子任务,由专用智能体执行。这类工作流遵循明确的结构化步骤,适合任务定义清晰、流程固定的研究场景。例如:

  • • AI Scientist [63] 通过 “构思 - 实验 - 报告” 等明确的串行阶段,实现科学发现自动化;
  • • Agent Laboratory [89] 将研究活动划分为 “文献综述 - 实验 - 结果整合” 等规范化阶段;
  • • AgentRxiv [88] 进一步扩展静态范式,引入智能体间协作机制,通过共享中间研究成果实现增量知识复用。

静态工作流的优势是易于实现、流程清晰,但泛化能力有限 —— 每类任务都需要定制专属流程。

动态工作流:自适应的灵活流程

为解决静态工作流在灵活性与泛化性上的局限,动态工作流支持自适应任务规划,允许智能体根据迭代反馈与动态上下文重新配置任务结构。动态架构通过自动规划、迭代优化、交互式任务分配等高级机制,让任务能随新知识或外部输入实时调整,因此具备更强的通用性与适应性,非常适合深度研究智能体面临的复杂知识密集型任务。

3.3.2 动态工作流:三种规划策略

为提升深度研究智能体对用户需求与上下文变化的适应性,现有研究提出了三种基于 LLM 的规划策略,核心差异在于 “是否与用户交互以澄清意图” 以及 “如何交互”:

    1. 仅规划(Planning-Only):直接基于用户初始提示生成任务计划,不主动澄清意图。大多数深度研究智能体采用这种方式,如 Grok [124]、H2O [39]、Manus [66];
    1. 意图到规划(Intent-to-Planning):先通过提问澄清用户意图,再根据用户补充信息生成定制化任务序列。OpenAI DR [78] 是这类策略的代表;
    1. 意图 - 规划统一(Unified Intent-Planning):结合前两种方式 —— 先基于初始提示生成初步计划,再与用户交互确认或修改计划。Gemini DR [33] 采用这种策略,充分利用用户引导优化计划。

3.3.3 动态工作流:单智能体 vs 多智能体

动态工作流可根据智能体架构分为单智能体与多智能体框架,二者在任务专业化分工、协调复杂度、执行扩展性上存在显著差异。

动态单智能体系统:一体化认知循环

动态单智能体系统将规划、工具调用、执行整合到统一的 LLM 中,形成连贯的认知循环。这类架构能根据动态上下文自主优化任务计划、调用合适工具,无需复杂的智能体间协调。

与多智能体架构相比,单智能体系统支持对整个工作流进行端到端强化学习(RL)优化,实现推理、规划、工具调用的无缝整合。例如:

  • • Search-o1 [58]、R1-Searcher [96]、DeepResearcher [135]、WebDancer [120]、WebSailor [57]、PANGU Deepdiver [94]、Agent-R1 [80]、ReSearch [16]、Search-R1 [52]、WebWatcher [121]、MiroRL [107]、Memento [138]、Kimi-Researcher [70] 等系统,均通过 “明确推理 - 动作 - 反思” 的迭代循环实现功能,符合 ReAct 框架 [127]。

不过,单智能体系统对基础模型的推理能力、上下文理解能力、工具选择与调用自主性要求极高;且高度集成的架构降低了模块化灵活性,难以对单个功能组件进行独立扩展或优化。

动态多智能体系统:专业化分工协作

动态多智能体系统通过多个专业化智能体协作执行子任务,子任务由自适应规划策略生成并动态分配。这类系统通常采用分层或集中式规划机制 —— 协调智能体根据实时反馈持续分配、重新分配任务。例如:

  • • OpenManus [60]、Manus [66] 采用 “分层规划器 - 工具调用器” 架构;
  • • OWL [12] 引入 “面向劳动力” 的模型,由中央管理智能体协调专业化执行智能体的任务分配;
  • • Alita [84] 为深度研究智能体加入自进化机制,能根据任务与环境需求实时实例化、配置新的 MCP 服务器;
  • • AWorld [8] 是开源多智能体框架,支持工具构建、协调与训练,提供记忆与上下文服务、MCP 工具集成,实现可扩展评估与自我优化;
  • • WebWalker [121] 通过 “探索 - 评估” 范式模拟人类网页导航;
  • • WebThinker [59] 结合执行智能体与辅助智能体,实现自主搜索、深度网页探索、研究报告撰写。

多智能体系统能高效处理复杂、可并行的研究任务,提升开放研究场景的灵活性与扩展性,但面临一大核心挑战 —— 多智能体协调复杂度高,难以实现有效的端到端强化学习优化。

3.3.4 长上下文优化:记忆机制

记忆机制让深度研究智能体能跨多轮检索持续捕捉、组织、召回相关信息,减少冗余查询,提升任务效率与连贯性。在深度研究过程中,智能体通常需要进行大量多轮检索,生成数十万甚至数百万 tokens—— 尽管 LLM 的上下文窗口不断扩大,但仍难以满足超长上下文任务的需求。为此,研究者提出了三类长上下文优化策略:

    1. 扩展上下文窗口长度:最简单直接的方法,例如谷歌 Gemini 模型 [33] 支持百万 token 上下文窗口,并结合 RAG 架构。但这种方法计算成本高,实际部署中资源利用率低;
    1. 压缩中间步骤:通过压缩或总结中间推理步骤,减少模型处理的 token 数量,提升效率与输出质量。例如:
  • • AI Scientist [63]、CycleResearcher [117] 在工作流各阶段传递总结后的中间结果;
  • • Search-o1 [58] 提出 “文档内推理(Reason-in-Documents)”,利用 LRM 压缩文档,减少 token 量并提升决策效率;
  • • WebThinker [59] 通过辅助模型压缩外部信息。

但该方法可能导致细节信息丢失,影响后续推理精度;

    1. 外部结构化存储:利用外部存储保存历史信息,突破上下文窗口限制,提升记忆容量、检索速度与语义相关性。例如:
  • • Manus [66]、OWL [12]、OpenManus [60]、Avatar [123] 等开源框架利用外部文件系统存储中间结果与历史数据;
  • • AutoAgent [101] 开发自管理模块,基于向量数据库实现可扩展记忆存储与快速相似性查询;
  • • Agentic Reasoning [122] 采用知识图谱记录中间推理过程,提升信息复用精度;
  • • AgentRxiv [88] 模拟 arXiv 学术仓库,存储并检索其他智能体的研究成果;
  • • Agent-KB [103]、Alita [84] 构建共享知识库与优化工具集,支持智能体问题求解。

这类结构化方法语义检索效率高、准确性强,但需要精心设计数据结构,开发与维护成本较高。

3.4 调优:超越提示,提升智能体能力

表 3 【表太长,感兴趣读原文】梳理了不同深度研究智能体的调优方法(包括监督微调 SFT、强化学习 RL)。基于提示的方法直接利用预训练 LLM 的能力,无需昂贵的微调或额外训练,但难以系统优化提示结构与工作流,且智能体性能受限于基础 LLM 的能力上限。为突破这些局限,需引入微调、强化学习(RL)或混合训练范式,进一步扩展模型能力 —— 下文将重点介绍 SFT 与 RL 两种核心调优范式。

3.4.1 基于 SFT 的优化:提升任务适配性

基于提示的方法虽能快速适配任务,但受限于基础 LLM 的泛化能力,在复杂任务中鲁棒性不足。为此,研究者通过微调优化 LLM 在深度研究智能体关键组件(如搜索查询生成、结构化报告生成、外部工具使用)中的表现,以提升检索质量、减少幻觉、实现更可靠的长文本证据生成。

早期代表性研究是 Open-RAG [47]—— 通过多样化监督信号(检索 token、相关性 token、grounding token、效用 token)构建数据集,结合对抗训练提升模型过滤无关信息的能力,进而优化检索准确性与下游任务性能。在此基础上,AUTO-RAG [131] 增强了 LLM 的自主迭代检索能力:与依赖少样本提示或手工模板的早期多跳检索方法 [50,25,111] 不同,AUTO-RAG 构建基于推理的指令数据集,让模型能自主规划检索查询、与检索器进行多轮交互,并在生成过程中动态优化检索策略,收集足够证据后再合成最终答案。

DeepRAG [36] 进一步创新,提出二叉树搜索机制 —— 递归生成子查询并构建多轮检索轨迹,平衡 LLM 内部参数知识与外部检索结果,提升搜索效率并减少冗余查询。

为减少对人工构建 SFT 数据集的依赖,近期研究探索基于拒绝采样的微调策略:

  • • CoRAG [112] 通过拒绝采样从标准问答数据集提取中间检索链,支持逐步检索增强,并能随上下文变化动态重构子查询(而非仅监督最终输出);
  • • Li 等人 [56] 提出 “提示 - 推理(hint-infer)” 机制 —— 生成过程中监控 token 模式,触发外部计算工具(如 Python 执行器、提示库),并在初始 SFT 后通过拒绝采样微调,让模型自主生成提示并调用工具,无需依赖手工演示;
  • • ATLAS [18] 仅使用专家轨迹中的关键步骤训练 LLM 智能体,大幅提升泛化性能。

尽管这些 SFT 方法提升了深度研究智能体的动态检索规划、结构化信息整合、工具集成能力,但仍局限于检索增强系统的离线静态检索流程。相比之下,强化学习能实现在线查询生成与工具调用的自适应优化 —— 通过实时奖励信号,让智能体学习生成有效搜索查询、判断工具调用时机,解决合成演示数据偏差与分布偏移问题,在开放式研究环境中实现更鲁棒的自适应性能。

3.4.2 基于强化学习的优化:提升自适应能力

强化学习(RL)方法通过直接提升深度研究智能体的自适应能力与跨任务泛化性,超越了传统的指令跟随或模式学习。近期研究表明,端到端 RL 训练能显著增强智能体的迭代信息检索、动态工具调用、集成推理能力(见表 3)。

早期 RL 方法如 DeepRetrieval [49] 通过优化查询生成提升信息检索质量,进而改善下游文本生成效果;ReSearch [16] 将 RL 扩展到检索信息的自适应推理,模型能根据持续反馈动态优化搜索策略、迭代更新结果,提升任务求解准确性;R1-Searcher [96] 进一步优化检索交互,通过精心设计的奖励函数训练模型优化搜索策略,提升外部信息利用效率与搜索结果相关性;Search-R1 [52] 将复杂搜索交互与推理过程结构化整合,实现查询生成与信息推理的无缝衔接,通过优化检索内容整合生成更精准的响应;Agent-R1 [80] 则是集大成者 —— 将 RL 融入 LLM 智能体的端到端训练,整合 API、搜索引擎、数据库等多种工具,实现自主多步任务执行与动态工具协调,通过全流程 RL 优化,展现出先进的自适应规划、迭代执行、任务优化能力。此外,WebThinker [59] 集成网页探索模块实现动态多跳网页探索,并采用迭代式在线直接偏好优化(DPO)[86],在推理过程中无缝整合搜索、导航、报告撰写;PANGU DeepDiver [94] 基于华为昇腾 NPU 预训练的 7B 盘古模型,通过两阶段 SFT 与 RL 课程学习引入 “搜索强度缩放(SIS)”,实现开放网络环境中检索深度与频率的自适应调整。

从表 3 【表太长不好放,建议读原文】可看出 DR 系统中 RL 的三类典型应用模式:

    1. 商用系统(如 Gemini DR [33]、Grok DeepSearch [124])采用专有 RL 实现,细节未公开;
    1. 学术研究(如 [16,96])偏好模块化 RL 优化,采用 GRPO [92]、Reinforce++[43] 等算法,奖励设计透明;
    1. 新兴混合系统(如 SimpleDeepSearcher [100])结合过程奖励与多任务训练(覆盖 6 个 QA 数据集)。同时,Qwen2.5、LLaMA3 模型家族是 RL 优化的主流基础架构。

奖励模型与策略模型:当前开源 DR 智能体的 RL 实现多采用基于规则的奖励模型,明确定义检索相关性、信息准确性、工具调用成功率等任务目标。为高效优化策略,近期系统广泛采用近邻策略优化(PPO)[90] 与组相对策略优化(GRPO)[92]—— 其中 GRPO 通过以下创新重构优势估计范式:

  • • 用组相对优势计算替代传统价值函数,通过组内归一化扩展奖励空间,将稀疏二进制奖励转化为连续优势值,为策略更新提供更丰富的梯度信息;
  • • 引入方差抑制机制 —— 将优势估计限制在动态聚类的响应组(如按推理深度、工具使用模式聚类),通过局部标准化减少策略梯度方差;
  • • 移除独立价值网络,消除策略与价值函数的优化目标冲突。

实证表明,GRPO 将每个训练周期的梯度方向冲突从 12 次降至 3 次,大幅加速收敛;且在奖励分布覆盖范围、探索能力、KL 散度稳定性上均优于传统 PPO。

3.5 非参数化持续学习:无需更新权重的自我进化

深度研究智能体高度依赖 LRM,且常采用复杂分层工作流。SFT、RL 等参数化学习方法面临三大挑战:模型参数扩展需求大、结构化经验数据量大、训练算法设计复杂。相比之下,非参数化持续学习提供了可扩展的替代方案 —— 智能体通过与外部环境持续交互,优化外部记忆、工作流、工具配置,实现运行时能力提升,无需更新内部权重。这种范式能以极小的数据与计算开销实现在线自适应,非常适合复杂架构的深度研究智能体。

当前,基于案例推理(CBR)是 LLM 驱动智能体系统中主流的非参数化持续学习方法。CBR 让智能体从外部案例库中动态检索、适配、复用结构化问题求解轨迹 —— 与依赖静态数据库的传统 RAG 不同,CBR 支持在线上下文适配与任务级泛化,是复杂架构深度研究智能体的高效优化方案。例如:

  • DS-Agent [37] 是首个将 CBR 引入自动化数据科学工作流的 LLM 驱动智能体,能从构建的案例库中实现近似在线检索;
  • • LAM [38] 将 CBR 应用于功能测试生成,在模块化系统设计中结合轨迹级检索与 LLM 规划;
  • • Agent K [35] 进一步扩展 CBR 范式,通过基于奖励的记忆策略实现动态外部案例检索与复用,真正实现无需更新模型参数的自我进化;
  • • AgentRxiv [88] 针对深度研究智能体,让自主研究智能体能协作共享、访问集中式研究成果仓库 ——LLM 智能体实验室可上传 / 检索报告,模拟实时更新的 arXiv 平台(即综合案例库),实现无需参数更新的能力提升。

与基于提示的方法(将固定演示或任务启发式编码为静态输入模板)相比,非参数化方法支持动态检索与适配结构化轨迹,无需人工提示工程即可实现持续任务泛化;与检索非结构化文本的 RAG 相比,CBR 以轨迹为单位,强调基于推理的记忆组织。例如,Kaggle 大师智能体 [35] 展示了 —— 配备模块化推理组件与持久记忆的 LLM 能实现专家级结构化问题求解,这与 CBR 范式高度契合。

除基于记忆的方法外,自进化还可通过动态基础设施适配实现 —— 例如 Alita [84] 能监控任务需求与环境信号,实时部署并配置新的 MCP 服务器,按需扩展、优化工具集。

综上,LLM 驱动深度研究智能体的自进化范式为结构化推理、动态检索提供了新方向,有望实现高效知识复用与持续学习。尽管目前这类方法关注度较低,但能有效解决参数化方法的数据与计算开销问题,是未来研究与实际部署的重要方向。

4 深度研究智能体的工业应用

4.1 OpenAI 深度研究智能体

OpenAI 近期推出 DR 功能 [78],采用单智能体架构,核心是基于强化学习微调的 o3 推理模型。收到研究查询后,系统先通过简短的交互式澄清步骤明确用户意图与研究目标再自主制定并执行多步研究策略 —— 包括多模态信息检索、网页浏览,以及通过浏览器工具完成数据分析、可视化等计算任务。其核心技术突破包括:

    1. 动态自适应迭代研究工作流:能在任务执行过程中持续优化策略;
    1. 增强型上下文记忆与鲁棒多模态处理:高效整合多源信息;
    1. 全面工具链整合:结合网页浏览与内置编程工具,生成带精确引用的结构化权威报告。

4.2 Gemini 深度研究智能体

谷歌 DeepMind 推出的 Gemini DR [33],是基于多模态 Gemini 2.0 Flash Thinking 模型的先进深度研究智能体。该系统采用单智能体架构,通过强化学习微调提升规划与自适应研究能力,能自主快速完成复杂任务。核心技术突破包括:

    1. 交互式研究规划:收到查询后自主生成多步研究计划,支持用户查看与修改;
    1. 异步任务管理:采用异步架构,高效处理多个并发任务;
    1. 大规模上下文窗口 RAG 集成:能有效管理、连贯整合文本、图像等多模态数据,支持深度专业研究分析;
    1. 高速自适应检索:实现多轮快速自适应网页搜索,检索速度与单轮信息获取量显著优于其他智能体。

4.3 Perplexity 深度研究智能体

Perplexity 开发的 DR 智能体 [81] 具备将复杂查询分解为明确子任务的先进能力,能通过迭代式目标网页搜索、权威来源批判性评估,生成结构化综合报告。核心技术突破包括:

    1. 迭代式信息检索:基于中间洞察动态调整搜索策略,进行多轮目标搜索,确保信息全面准确;
    1. 动态提示引导模型选择:采用混合架构,根据任务需求与上下文自主选择最优专业模型组合,提升不同研究场景的适应性与有效性。

4.4 Grok DeepSearch

xAI 开发的 Grok DeepSearch [124],是融合实时信息检索与多模态推理的计算框架,能动态解决复杂信息密集型问题。核心技术突破包括:

    1. 片段级模块处理流程:Grok3 收到查询后,先通过可信度评估模块过滤低质量信息;再通过实时数据获取引擎从多源收集文本、图像、代码等多模态输入;接着利用稀疏注意力机制并行处理数据清洗、跨源验证、多模态整合等关键推理子任务;最后通过迭代优化生成结构化输出(包括分析总结、3D 轨迹等高级可视化、可验证引用);
    1. 动态资源分配:能自适应在轻量级检索与密集型分析模式间切换,并通过安全沙盒环境实现计算验证。

4.5 微软 Copilot Researcher 与 Analyst

微软在 Microsoft 365 Copilot 中推出了两款创新推理智能体 ——Researcher(研究者)与 Analyst(分析师)[98],二者能安全合规地访问用户工作数据(邮件、会议纪要、文档、聊天记录)与网页信息,按需提供专家级知识。

  • Researcher:专注于协助用户完成复杂多步研究任务,提升洞察质量与准确性。它结合 OpenAI 先进研究模型与 Microsoft 365 Copilot 的协调能力、深度搜索能力,可用于制定详细市场进入策略、整合内外部数据识别新产品市场机会、准备客户季度评审综合报告等场景;还能通过 Salesforce、ServiceNow、Confluence 等第三方数据源连接器扩展洞察维度。
  • Analyst:高级数据分析智能体,能在几分钟内将原始数据转化为有价值的洞察。它基于 OpenAI o3-mini 推理模型(针对专业环境下的高级分析任务优化),采用思维链推理方式逐步解决问题,生成接近人类分析思维的高质量结果。

4.6 通义千问深度研究智能体

阿里巴巴通义千问近期推出深度研究智能体,基于旗舰多模态模型 Qwen3-235B-A22B 构建。该系统在统一智能体框架中通过强化学习优化任务调度,提升自主规划与自适应执行能力,能快速完成复杂研究工作流。核心技术突破包括:

    1. 动态研究蓝图:支持交互式计划优化;
    1. 并发任务协调:实现检索、验证、整合的并行执行。

4.7 moonshot K2 深度研究智能体

Moonshot AI 的 Kimi K2 通过 token 高效学习、目标数据工程、可扩展稀疏设计、工具对齐后训练,提升深度研究能力。核心技术突破包括:

    1. Token 高效预训练:通过选择性注意力正则化实现稳定优化,支持大规模可靠训练;
    1. 数据重写:通过合成改写实现知识转化,结合学习笔记风格的数学数据处理,构建覆盖网页文本、代码、数学、知识的 15.5 万亿 token 验证语料库;
    1. 稀疏架构与系统:采用混合专家(MoE)架构与多头潜在注意力,发现稀疏性缩放规律,并通过 H800 集群的灵活并行与内存感知执行提供支持;
    1. 智能体后训练:先通过沙盒代码执行进行工具使用轨迹监督训练,再结合客观任务可验证奖励与主观任务评分式自我批判,实现强化学习优化。

除上述代表性 DR 服务外,微软、字节跳动等科技巨头,以及 Jina AI [3]、H2O [39]、智谱 AI [137] 等新兴初创公司也推出了专属 DR 平台。这些解决方案的快速普及,反映了全球对 DR 技术的高度关注,也证明了其技术吸引力与市场潜力。未来,随着 LLM 推理、检索整合、多模态生成技术的持续进步,深度研究智能体将突破传统信息检索与基础工具调用的局限,应对更复杂的推理与知识构建任务,成为下一代智能协作研究平台的核心技术支柱。

5 深度研究智能体的评测基准

深度研究智能体的评测需要能覆盖其完整研究工作流的基准,包括多步信息检索、跨源整合、动态工具调用、结构化证据报告生成。现有评测主要分为两类:

  • 问答类基准:从单轮事实查询到复杂研究型问题,评估智能体的事实知识、领域推理、信息定位与整合能力;
  • 任务执行类基准:评估智能体的长程规划、多模态理解、工具使用、环境交互能力,聚焦端到端研究任务完成度。

尽管 Qasper [21]、ELI5 [23] 等长文本生成数据集能测试输出连贯性,但自由格式的任务设计与深度研究智能体所需的 “结构化证据报告” 目标不符。因此,亟需能反映 DR 工作流多阶段、多模态特征的专用基准,实现对智能体自主研究全流程的严格评估。

5.1 问答类基准:从事实回忆到专家级推理

问答类基准覆盖不同复杂度,从简单事实回忆到多跳推理、研究型问答:

  • 基础事实类:SimpleQA [115]、TriviaQA [53]、PopQA [65] 聚焦参数化或单跳事实回忆,评估模型从记忆或有限上下文中检索短事实答案的能力;
  • 文档提取类:Natural Questions(NQ)[55]、TELEQnA [64] 增加复杂度,要求从长文档或领域特定源(如电信标准文档)中提取答案;
  • 多跳推理类:HotpotQA [126]、2WikiMultihopQA [41]、Bamboogle [5] 强调跨文档多跳推理与证据选择;
  • 专家级类:Humanity’s Last Exam(HLE)[82] 是难度最高的基准,包含各领域顶尖教授设计的专家级开放域科学问题,需要多轮检索、复杂推理甚至多模态理解;
  • 硬信息检索类:OpenAI 提出的 BrowseComp [79] 是挑战性基准,保留 SimpleQA 的答案可验证性,但过滤掉 “LLM 结合网页搜索可轻松解决” 的问题,专门测试智能体的信息检索与整合能力。

尽管深度研究智能体取得了显著进展,但在 HLE 与 BrowseComp 基准上的表现仍远逊于人类专家 —— 这两个基准是当前 DR 智能体评测中最关键、未解决的挑战。

5.2 任务执行类基准:从工具使用到研究协作

任务执行类基准评估智能体在工具使用、环境感知、信息过滤方面的综合能力,主要分为两类:

5.2.1 通用助手任务

GAIA [68]、AssistantBench [128]、Magentic-One [26] 等基准要求智能体在开放式网络环境中规划并执行工具驱动工作流(如搜索、浏览、表单填写)。其中,GAIA 是最重要的基准 —— 提供多样化、人类易解决但当前智能体难完成的真实任务,是评估通用助手能力的核心标准。

5.2.2 研究与代码导向任务

SWE-bench [51]、HumanEvalFix [71]、MLGym [74]、MLE-bench [14]、MLBench [102]、MLAgentBench [45]、ScienceAgentBench [19] 等基准,测试智能体完成机器学习流程、修复真实 GitHub 代码、复现科学实验等能力,要求长程规划、精确工具调用,通常还需代码生成与验证。

此外,RE-Bench [118]、RESEARCHTOWN [129] 等基准模拟多智能体研究环境,评估智能体在多角色科学工作流中的协作与迭代能力。

随着深度研究智能体整合更多交互式工具,未来评测可能扩展到 GUI 操作环境 ——OSWorld [125]、WebArena [139]、SpaBench [15] 等基准允许智能体直接控制应用或网页界面,为测试 “具身研究能力” 提供了新方向。

6 挑战与未来方向

尽管深度研究智能体发展迅速,在自动化多步信息发现与整合中展现出强大能力,但仍面临两大核心挑战,这也决定了未来的创新方向:一是信息获取的广度与深度受限于静态知识库或传统搜索接口;二是执行工作流与系统架构的效率、鲁棒性受限于线性规划范式与单体智能体设计。解决这些挑战,是让深度研究智能体成为 “自主自适应研究助手” 的关键 —— 既能应对复杂异构数据环境,又能协调高吞吐量并行推理流程。

6.1 拓展信息来源:突破静态与公共内容局限

当前深度研究智能体要么采用静态知识库(如 RAG 方法),要么完全依赖搜索引擎与浏览器,前者信息不足,后者局限于公开网页内容,导致信息获取能力严重受限 —— 无法访问应用程序、专有接口或专业数据库背后的信息(例如彭博终端等订阅服务中的实时市场情报)。

为突破这一局限,需通过 MCP 整合更精细、更广泛的模块化工具,让智能体能动态访问标准浏览器 / 搜索引擎之外的专用工具与资源(如专有应用、数据库、API),获取此前无法触及的数据,实现更精准、自适应、上下文感知的交互,满足复杂用户需求。

整合专有 API 与数据库后,工作流的瓶颈从 “数据获取” 转向 “网页交互效率”—— 传统人类导向浏览器为智能体带来新障碍:为视觉渲染优化而非程序控制,导致页面加载慢、元素定位易受布局变化影响、反机器人机制易中断自动化会话,最终造成大规模数据获取时延迟高、爬取不稳定、并行能力有限。

为解决这一问题,研究者开始设计 AI 原生浏览器,如 Browserbase [2]、Browser Use [72]、Dia、Fellou [105]、Perplexity Comet [108]:

  • • 提供稳定结构化的 DOM 视图,支持智能体程序化遍历 [2,72,108];
  • • 提供明确的 API 钩子,支持点击元素、填写表单,避免依赖脆弱的坐标操作 [2,105];
  • • 在无头容器中异步执行页面,减少加载时间波动,避免可视化界面开销 [2];
  • • 嵌入视觉语言模型,跟踪页面动态变化,自动解决登录验证与反机器人挑战 [2];
  • • 支持并行协调多个标签页,实现对私有仪表盘、单页应用、交互式可视化的大规模访问 [72,108]。

这些能力消除了 “传统浏览器” 在智能体与专有数据源间的延迟与脆弱性问题。

6.2 事实核查:结构化验证与自我反思

为进一步提升事实准确性,最新方法在多步检索基础上增加了结构化验证循环与自我反思能力:智能体生成初步答案后,不直接输出,而是主动启动交叉验证 —— 寻找独立来源确认事实、搜索矛盾证据。例如,Grok DeepSearch 会评估每个来源的可信度,通过多达七层深度检查一致性,并在多源间验证关键主张 [124],大幅减少单源错误,提升答案可靠性。

同时,智能体开始具备 “自我反思” 能力 —— 推理过程中检查、测试中间结果,类似人类研究者的反思思维。例如,智谱 Rumination 模型 [137] 在得出结论后,会继续搜索验证结论有效性,再最终确定答案。这种反思通常通过强化学习中的 “正确性导向奖励” 实现:若模型检测到矛盾或不确定性,会重新规划检索策略,必要时回溯修正早期推理 [78]。

通过 “结构化验证 + 自我反思”,研究智能体的事实核查严谨性达到新高度 —— 不仅提供答案,还能解释 “为何可信”,大幅降低事实错误与幻觉;同时,智能体能制定搜索计划、根据中间证据调整查询、回溯补充缺失信息 [78]。

6.3 异步并行执行:突破线性规划局限

当前大多数深度研究智能体依赖线性任务规划(串行执行子任务),效率与鲁棒性受限。为解决这一问题,可从两方面入手:

    1. 基于 DAG 的异步并行架构:采用有向无环图(DAG)等先进任务建模结构,实现子任务并行执行与动态优先级排序,有效管理任务间复杂依赖关系,支持重新规划等高级规划能力;
    1. 强化学习调度智能体:训练专门的调度智能体,基于运行时性能信号(如执行延迟)分配子任务、调整执行顺序。将调度决策视为 RL 环境中的动作,让智能体逐步学习平衡并行性、资源利用率、任务优先级的策略,提升端到端研究工作流的鲁棒性与效率。

6.4 工具整合推理(TIR):超越简单工具使用

开发有效深度研究智能体的核心挑战之一是实现 “工具整合推理(TIR)”—— 这一范式超越了简单的工具调用,要求在动态工具整合中完成复杂多步推理:智能体不仅要按逻辑顺序调用合适工具,还需根据中间结果自适应调整推理路径。

传统监督微调方法在工具推理任务中泛化能力有限,易出现 “过度推理” 或 “工具选择不当” 问题。近期研究 [83] 表明,带有精心设计奖励结构的强化学习框架能显著提升模型的工具推理能力:通过细粒度奖励(不仅评估最终答案正确性,还包括工具选择合理性、参数设置准确性、推理效率),TIR 优化后的智能体在多个基准上性能提升 15-17%,且对未见过的工具与任务泛化性更强、调用模式更合理、工具使用与自身知识平衡更优。

在深度研究智能体中有效实现 TIR,是打造 “无需人类干预即可应对复杂信息环境” 的自主研究助手的关键一步。

6.5 基准错位:构建真实有效的评测体系

当前多数公开深度研究评测仍依赖传统问答数据集,这些数据集主要来自维基百科等静态语料 —— 由于大量内容已嵌入基础模型参数,领先智能体常能直接从记忆中回答,绕过研究流程,导致性能虚高。

为真实评估检索、推理、工具使用能力,深度研究领域亟需 “开放网络、时效性强” 的基准:

  • • BrowseComp [79] 是重要突破 —— 过滤掉可通过参数知识解决的问题,迫使智能体在线定位难获取信息;
  • • 另一方向是构建 “持续更新排行榜”,从最新网络环境与事件中提取问题,避免模型通过参数记忆 “破解” 基准。

此外,现有深度研究评测多将开放式研究工作流简化为 “问答提示” 或 “基础 GUI 控制任务”,忽略了 DR 的核心产出 —— 融合文本叙述、表格、图表、引用的结构化多模态研究报告。由于评测指标聚焦信息检索、提取与工具调用,严重低估了 “跨源证据整合、多模态合成、篇章组织” 等高级能力。因此,未来的核心研究方向之一是构建 “端到端报告生成” 综合基准,评估智能体在长文本叙述、表格图表整合、多模态连贯性等方面的能力,同时覆盖事实准确性、篇章结构、多模态对齐等维度。

6.6 多智能体架构的参数优化:突破单智能体局限

OpenAI [78,80] 已证明,端到端 RL 能显著提升基础模型在深度研究任务中的推理能力,这一结果也被多个开源项目复现。但当前实现多采用单智能体架构 —— 基础模型需同时负责规划、工具调用、报告生成,多任务负载过高,导致效率与鲁棒性下降。

将工作负载分配给多个专业化智能体,已被证明能提升系统性能 [110],但 “多智能体端到端训练” 与 “高效协调” 仍是未解决的核心挑战。为优化多智能体架构,可探索两个方向:

    1. 分层强化学习(HRL)与多阶段后训练
  • • HRL 引入分层内部奖励机制,促进反馈高效传播与智能体间协作学习;
  • • 设计针对深度研究任务的多阶段后训练优化流程,迭代提升智能体间交互效果,增强系统稳定性与适应性;
    1. 强化学习调度智能体:训练专门的调度智能体,基于实时性能指标动态分配子任务、调整执行顺序。将调度决策建模为 RL 环境中的动作,逐步学习平衡并行执行、资源利用率、任务优先级的自适应策略,提升端到端研究工作流的鲁棒性与效率。

6.7 自进化语言模型智能体:突破静态能力局限

尽管深度研究智能体的自进化方法已出现初步尝试(如 AgentRxiv [88] 模拟协作平台,支持结构化研究经验的在线共享与复用),但该范式仍处于初步阶段,且局限于基于案例的推理。类似地,CycleResearcher [117] 通过 “研究 - 评估 - 优化” 的迭代偏好学习(结合鲁棒验证器 [141]),实现完整研究流程模拟,与 AlphaEvolve [76] 共享自进化理念。

为充分释放深度研究智能体的自进化潜力,未来研究需从两方面扩展自进化方法:

    1. 全面基于案例的推理框架:利用分层经验轨迹(包括规划轨迹、结构化工具调用日志),结合先进检索与选择机制,实现细粒度、上下文敏感的适配;
    1. 自主工作流进化:将智能体工作流表示为树、图等可变结构,通过进化算法或自适应图优化,动态探索、修改、优化执行计划。

双管齐下,既能增强框架鲁棒性,又能减少对数据与计算资源的依赖。

7 结论

基于 LLM 的深度研究智能体是自动化研究支持的新兴范式,整合了迭代信息检索、长文本生成、自主规划、复杂工具使用等先进技术。本文系统性回顾了深度研究智能体的最新进展,从信息检索与报告生成视角,将现有方法分为基于提示、基于微调、基于强化学习三类:

  • • 非参数化方法利用 LLM 与精心设计的提示,实现高效低成本部署,适合快速原型开发;
  • • 微调与强化学习方法通过显式优化模型参数,显著提升智能体的推理与决策能力。

同时,我们还分析了行业领先机构开发的代表性深度研究智能体系统,探讨了其技术实现、优势与局限。

尽管取得了显著进展,深度研究智能体仍面临关键挑战:跨任务泛化能力有限、任务工作流僵化、难以整合细粒度外部工具、高级规划与优化的计算复杂度高。未来研究需关注以下方向:

  • • 通过模块化能力提供方(如基于操作员的架构)实现更广泛灵活的工具整合;
  • • 开发基于有向无环图的异步并行规划框架;
  • • 为多智能体架构设计先进的端到端优化方法(如分层强化学习、多阶段微调流程)。

随着 LLM 技术的持续进步,深度研究智能体有望变革复杂研究工作流,提升人类生产力,推动学术与工业领域的创新。

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

Logo

更多推荐