DeepDive大模型深度搜索实战：从知识图谱合成到强化学习的完整指南（必藏）

DeepDive提出提升LLMs深度搜索能力的方法，包括从知识图谱自动合成复杂问题和端到端多轮RL训练。实验表明，DeepDive-32B在BrowseComp上超越现有开源系统，准确率达14.8%。多轮RL训练显著增强模型的深度搜索和长距离推理能力，且在测试时可扩展工具调用和并行采样，所有数据和代码已公开。

拥抱AGI

989人浏览 · 2025-09-24 16:24:45

拥抱AGI · 2025-09-24 16:24:45 发布

简介

摘要

通过浏览工具增强大型语言模型（LLMs）显著提升了它们作为深度搜索代理解决复杂现实世界任务的潜力。然而，开放的LLMs在这种环境下表现仍然不佳，原因在于使用浏览工具的有限长远推理能力以及缺乏足够难度的监督数据。为了应对这些挑战，我们提出了DeepDive以推进深度搜索代理。首先，我们提出了一种策略，从开放知识图谱中自动合成复杂、困难且难以找到的问题。其次，我们应用端到端的多轮强化学习（RL）来增强LLMs的深度搜索长远推理能力。实验表明，DeepDive-32B在BrowseComp上取得了新的开源竞赛成绩，超越了WebSailor、DeepSeek-R1-Browse和Search-o1。我们证明了多轮RL训练提高了深度搜索能力，并在多个基准测试中对性能提升有显著贡献。我们观察到DeepDive能够在测试时扩展工具调用和并行采样。所有数据集、模型和代码均在https://github.com/THUDM/DeepDive公开可用。

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何提升大型语言模型（LLMs）作为深度搜索代理在复杂现实任务中的表现。具体来说，现有的开放LLMs在使用浏览工具时，由于缺乏长距离推理能力和足够的监督数据，表现不佳。
研究难点：该问题的研究难点包括：如何从开放知识图谱中自动合成复杂、难以找到的问题，以及如何有效地将长距离推理与深度搜索工具的使用结合起来。
相关工作：该问题的研究相关工作有：基于强化学习（RL）的语言模型推理、工具增强的长期推理系统、以及自动化和半自动化的深度搜索QA数据生成方法。

研究方法

这篇论文提出了DeepDive方法，用于解决深度搜索代理在复杂任务中的表现问题。具体来说，

自动化数据合成：首先，提出了一种从开放知识图谱（KGs）中自动合成复杂、难以找到的深度搜索问答对的方法。知识图谱提供了结构化且语义丰富的环境，适合生成高质量的监督数据。具体步骤包括：

从知识图谱中生成复杂的推理路径。
通过随机游走生成路径，并结合节点属性增加路径的复杂性和模糊性。
使用大型语言模型（LLM）混淆路径上的信息，生成最终的问答对。

端到端多轮RL训练：其次，采用端到端多轮RL训练来增强LLMs的长距离推理和深度搜索能力。具体步骤包括：

建立一个交互框架，作为深度搜索代理的学习环境。
代理的每个决策遵循推理、工具调用和观察的迭代循环。
使用多轮相对策略优化（GRPO）算法进行端到端RL训练，LLM与网络环境交互并根据构建的问答数据集中的最终答案接收奖励。
设计了严格的二进制奖励函数，确保每一步的格式正确且最终答案与真实答案完全匹配。

实验设计

数据收集：从两个公共知识图谱KILT和AMiner中生成合成数据。通过随机游走生成长链路径，并使用Gemini-2.5-Pro进行实体混淆和问答对的合成。
样本选择：合成的问答对随机分为1,016个样本用于监督微调（SFT）和2,234个样本用于强化学习（RL）。
参数配置：选择GLM-Z1-9B-0414和QwQ-32B作为骨干模型，每个模型训练3个epoch，全局批量大小为32，学习率为1 x 10^-5，最大上下文长度为104,800。
训练过程：使用Claude-4-Sonnet-Thinking作为教师模型与浏览工具交互，生成冷启动数据。RL训练使用开源Slime 1框架，展开大小为8，每个提示的样本量为16，全局批量大小为128，温度设置为1.0，最大上下文长度为50k。

结果与分析

整体性能：DeepDive-32B在四个具有挑战性的深度搜索基准测试中表现出色，特别是在BrowseComp和BrowseComp-ZH基准上，分别达到了14.8%的准确率，超过了所有现有的开源系统。
RL驱动的深度搜索策略：RL训练过程中，训练奖励和评估准确率均呈现上升趋势，平均工具调用次数在训练和评估阶段均有显著增长，分别从15次增加到20次，从35次增加到45次。
简单搜索任务的泛化能力：DeepDive在HotpotQA、Frames和WebWalker等简单搜索基准上也表现出色，显著优于其他基线模型。
推理的重要性：没有外部浏览工具的推理模型在四个深度搜索基准上的表现均优于其非推理对应模型，进一步强调了强大推理能力在解决复杂深度搜索问题中的重要性。

总体结论

这篇论文提出了DeepDive方法，通过自动化深度搜索问答对合成和端到端多轮RL训练，提升了LLMs作为深度搜索代理的性能。DeepDive-32B在多个基准测试中取得了新的开源竞争结果，显著提高了长距离推理和深度搜索能力。研究结果表明，复杂的监督和多轮RL训练共同促进了工具使用的结合，性能随着工具调用预算和并行采样的增加而扩展，且在难题上学到的技能可以转移到更简单的设置中。

论文评价

优点与创新

自动化数据合成：提出了一种从开放知识图谱（KGs）中自动合成复杂、难以找到的深度搜索问答对的方法。
端到端多轮强化学习：采用端到端多轮强化学习（RL）框架，使模型能够有效结合内部推理和外部网络搜索。
DeepDive-32B模型：基于开放模型，DeepDive-32B在BrowseComp上达到了14.8%的准确率，创下了开源模型的新记录，并优于多个强大的专有基线。
测试时工具调用扩展：展示了DeepDive在测试时工具调用的扩展性和并行采样的能力。
公开数据和代码：所有数据集、模型和代码均公开，支持开源深度搜索系统的进步。
半自动化i.i.d.数据合成：进行了额外的半自动化i.i.d.深度搜索问答合成研究，进一步提升了模型性能。

不足与反思

难度上限：尽管提出的两种具有挑战性的深度研究问答数据合成方法能够生成高质量的数据，但其难度上限仍显著低于像BrowseComp这样的数据集。这间接导致DeepDive-32B在BrowseComp上的表现远低于使用浏览功能的先进模型如o3。
过度搜索现象：主要面向困难数据训练的方法导致了DeepDive-32B的“过度搜索”现象。确定最佳训练步骤和设计更适合强化学习阶段的奖励机制是未来探索的重要领域。

关键问题及回答

问题1：DeepDive方法中，如何从开放知识图谱（KGs）中自动合成复杂、难以找到的深度搜索问答对？

生成复杂的推理路径：从知识图谱中生成复杂的推理路径。具体来说，通过随机游走生成路径，并结合节点属性增加路径的复杂性和模糊性。
增加路径的复杂性和模糊性：在生成路径的过程中，选择节点的属性（如日期、名称或位置）进行掩盖，从而增加问题的模糊性和难度。
使用大型语言模型（LLM）混淆信息：利用大型语言模型（LLM）对路径上的信息进行混淆，生成最终的问答对。这个过程涉及将具体日期概括为范围、将特定名称替换为模糊描述等。

通过上述步骤，DeepDive能够生成高质量的复杂问答对，这些问答对在训练过程中能够有效刺激LLMs的长距离推理和深度搜索能力。

问题2：DeepDive方法中，端到端多轮RL训练是如何增强LLMs的长距离推理和深度搜索能力的？

建立交互框架：建立一个交互框架，作为深度搜索代理的学习环境。代理的每个决策遵循推理、工具调用和观察的迭代循环。
多轮相对策略优化（GRPO）算法：使用多轮相对策略优化（GRPO）算法进行端到端RL训练。LLM与网络环境交互并根据构建的问答数据集中的最终答案接收奖励。
严格的二进制奖励函数：设计了严格的二进制奖励函数，确保每一步的格式正确且最终答案与真实答案完全匹配。奖励函数的形式为：如果每一步的格式正确且最终答案与真实答案匹配，则奖励为+1；否则，奖励为0。
早期退出机制：引入早期退出机制，一旦模型在任何步骤中出现格式错误，立即终止轨迹生成并赋予0奖励，确保所有正奖励轨迹都是无错误的。

通过上述步骤，DeepDive能够逐步增强LLMs的多轮搜索和长距离推理能力，使其在复杂的深度搜索任务中表现出色。

问题3：DeepDive在实验中表现如何，与其他模型相比有哪些优势？

整体性能：DeepDive-32B在四个具有挑战性的深度搜索基准测试中表现出色，特别是在BrowseComp和BrowseComp-ZH基准上，分别达到了14.8%的准确率，超过了所有现有的开源系统。
RL驱动的深度搜索策略：RL训练过程中，训练奖励和评估准确率均呈现上升趋势，平均工具调用次数在训练和评估阶段均有显著增长，分别从15次增加到20次，从35次增加到45次。
简单搜索任务的泛化能力：DeepDive在HotpotQA、Frames和WebWalker等简单搜索基准上也表现出色，显著优于其他基线模型。例如，在WebWalker基准上，DeepDive-32B在SFT和RL阶段的准确率分别达到了60分和72分，超过了当前开源最先进的WebShaper-72B。
推理的重要性：没有外部浏览工具的推理模型在四个深度搜索基准上的表现均优于其非推理对应模型，进一步强调了强大推理能力在解决复杂深度搜索问题中的重要性。

总体而言，DeepDive通过自动化数据合成和端到端多轮RL训练，显著提升了LLMs作为深度搜索代理的性能，并在多个基准测试中取得了新的开源竞争结果。

AI大模型学习和面试资源

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

北京朝阳AI社区

更多推荐

上下文工程驱动智能体向专用化与通用化平衡

北京朝阳AI社区

上下文工程驱动智能体向规则引擎与神经网络共生

北京朝阳AI社区

MCP 授权机制的现状、问题和解决思路

MCP 服务器（提供 AI 模型上下文的一方）需要一种机制来验证客户端（使用模型的一方）是否有权访问其资源。在该协议的设计中，这一机制是一种基于 OAuth 2.1的标准授权方案。简单来说，MCP 的授权流程是一个标准且安全的 OAuth 2.1 委托授权模式。它没有重新发明轮子，而是复用了业界成熟方案：客户端通过独立可信的授权服务器获取“通行证”（访问令牌），再用该“通行证”访问受保护的 MCP