大模型论文 | RAG从入门到精通：技术演进、评估框架与多智能体系统详解

RAG 不再是检索 + 生成的简单拼接，而是一个需要资源调度、版本管理、安全治理的分布式操作系统。

沈页

710人浏览 · 2025-10-05 16:00:00

沈页 · 2025-10-05 16:00:00 发布

本文对检索增强生成(RAG)进行了系统性综述，通过5大数据库筛选128篇高被引文献和343个数据集，构建了RAG技术全景图。RAG已从简单的"外挂知识库"演变为"可编程、可解释、可审计"的复杂系统，涵盖了检索前、检索中、检索后、迭代控制、记忆增强、多智能体等创新阶段。文章还详细介绍了评估指标体系和主流数据集，指出RAG已发展为需要资源调度、版本管理、安全治理的分布式操作系统，为RAG研究与应用提供了全面的技术路线图。

检索增强生成（RAG）自 2020 年 Meta “DPR+T5” 论文起，已从“外挂知识库”演进到“可编程、可解释、可审计”的复杂系统。然而，领域缺乏一份PRISMA 级的系统性综述来梳理：

通过 5 大数据库、128 篇高被引文献、343 个数据集的系统筛选，给出技术地图 + 评估框架 + 未来路线。

一、研究方法：PRISMA 2020 流程图

图 1：文献筛选流程，共识别 4,721 条记录，最终纳入 128 篇高被引研究。

二、技术全景：从“一条检索链”到“多智能体系统”

阶段	关键创新	名称
检索前	结构感知分块（100→4000 tokens）、元数据增强、长检索单元	Chunking
检索中	混合检索（BM25+Dense+KG）、图遍历、动态触发	Hybrid Retrieval
检索后	重排序、上下文压缩、噪声注入、Token 预算	Post Retrieval
迭代控制	FLARE、RIND、Self-RAG 反射 token	!Self-RAG
记忆增强	用户级向量库、对话缓存、知识图谱	Memory
多智能体	工具链编排（RALLE、MEDRAG）、ReAct-Chain	Agentic
效率压缩	xRAG 单 token 表示、PipeRAG 流水调度	Efficiency
多模态	MuRAG、Wiki-LLaVA，图像+文本同空间检索	Multimodal

128篇纳入的RAG论文按领域划分的研究特征：数据集、分块机制、检索机制、向量空间编码器和生成模型。

三、评估指标：从 EM 到 LLM-as-Judge

类别	代表指标	适用场景
检索	Recall@k、MAP@k、Hit@K	检索召回率
生成	EM、F1、BLEU、ROUGE、BERTScore	文本质量
幻觉	Support、Hallucination Rate、RAGTruth	事实一致性
人类	正确性、相关性、用户满意度	主观体验
LLM-Judge	GPT-4 打分、G-EVAL、SelfCheckGPT	可扩展评估

四、343个主流数据集

高频数据集	样本量	任务	引用次数
Natural Questions (NQ)	323k	开放域 QA	27
HotPotQA	113k	多跳 QA	26
Wikipedia	6M 文章	通用语料	19
MS MARCO	1M 段落	检索 + QA	8
StrategyQA	2.8k	隐式推理	8

包含的研究所使用的数据集概览。该表概述了每个数据集的关键特征和来源，提供了对研究文章中所使用数据的总体了解。这一总结支持对RAG特定趋势和方法论的分析，展示了该研究领域中应用的数据集的多样性和范围。

“RAG 不再是检索 + 生成的简单拼接，而是一个需要资源调度、版本管理、安全治理的分布式操作系统。”

https://arxiv.org/pdf/2508.06401
A Systematic Literature Review of Retrieval-Augmented Generation: Techniques, Metrics, and Challenges

如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

北京朝阳AI社区

更多推荐

Python基础编程入门指南

Python是一种高级编程语言，设计哲学强调代码的可读性和简洁性。由Guido van Rossum于1991年发布的Python，在过去几十年里已经成为了全球最受欢迎的编程语言之一。它被广泛应用于数据分析、人工智能、Web开发、自动化任务等各个领域。??Python拥有大量的第三方库，能大大提高我们的开发效率。以下是几个常用的Python库。??Python是一门非常适合初学者的编程语言，不仅简

北京朝阳AI社区

以下是聚焦具体技术场景的实战案例标题，结合2025年主流技术栈与量化指标：

本篇文章将聚焦具体技术场景，结合2025年主流技术栈与量化指标，展示如何通过技术创新驱动企业实现数字化转型的成功案例。数字化转型已成为全球企业发展的必经之路，特别是在人工智能（AI）、大数据、云计算、物联网（IoT）等技术的推动下，企业的业务模式、运营流程和客户体验都发生了巨大的变化。在2025年，随着技术的不断演进，多个领域的技术栈将成为企业转型的关键驱动力。以下是结合具体技术场景的实战案例，展

北京朝阳AI社区

分析容器化技术与弹性计算架构的最新进展

容器化技术与弹性计算架构的结合，为企业带来了前所未有的灵活性和效率。随着云计算技术的不断发展，这两项技术将继续推动企业数字化转型的进程。未来，随着人工智能、机器学习等技术的融合，容器化与弹性计算架构的管理将变得更加智能化和自动化，企业将能够更加高效地利用计算资源，从而提高业务的灵活性和竞争力。??随着技术的不断进步，容器化和弹性计算架构将在企业的应用场景中扮演越来越重要的角色，而其带来的影响将不仅