RAG是什么？一文讲清楚RAG原理与典型系统架构！

RAG，全称为Retrieval Augmented Generation，即检索增强生成。它是一种将外部知识检索与大型语言模型的生成能力相结合的人工智能技术框架。其核心思想是在大型语言模型（LLM）处理用户查询并生成回答之前，首先从一个或多个外部知识源（如数据库、文档集合、API等）中检索与查询相关的、最新的信息片段。然后，这些检索到的信息将作为额外的上下文（Context）注入到LLM的提示（

咔咔学姐kk

2587人浏览 · 2025-06-02 07:30:00

咔咔学姐kk · 2025-06-02 07:30:00 发布

一、RAG 基础概念

核心定义: RAG，全称为Retrieval Augmented Generation，即检索增强生成。它是一种将外部知识检索与大型语言模型的生成能力相结合的人工智能技术框架。其核心思想是在大型语言模型（LLM）处理用户查询并生成回答之前，首先从一个或多个外部知识源（如数据库、文档集合、API等）中检索与查询相关的、最新的信息片段。然后，这些检索到的信息将作为额外的上下文（Context）注入到LLM的提示（Prompt）中，从而引导LLM生成更准确、更相关、更具事实性的内容。

1、解决的核心问题:

知识时效性 (Knowledge Timeliness): LLM的内部知识是基于其训练数据构建的，通常存在“知识截止日期”，无法反映最新的事件或信息。RAG通过连接动态更新的外部知识库，有效地解决了这一问题，使得LLM能够接触并利用实时数据
幻觉问题 (Hallucination): LLM有时会“自信地”编造事实或生成不准确的信息。RAG通过提供具体的、从知识库中检索到的事实依据作为生成答案的基础，显著减少了模型产生幻觉的可能性。
领域知识缺乏 (Domain-Specific Knowledge Gap): 通用的大型语言模型在处理特定行业或专业领域的知识时，往往表现不佳，因为其训练数据可能不够深入或不包含最新的专业术语和概念。RAG允许接入企业私有数据库、行业特定文档等，为LLM补充必要的领域知识。
透明度与可解释性 (Transparency and Explainability): 传统LLM的决策过程往往像一个“黑箱”。RAG由于其答案基于检索到的具体文档，因此可以追溯答案的来源，提供引用的上下文，这大大增强了系统的透明度和可信度，用户可以自行核实信息的准确性。

2、关键优势:

提升准确性和事实性: 答案基于从外部知识库检索到的最新、最相关信息生成，而非仅仅依赖模型内部可能过时或不完整的知识。
知识动态更新: 更新知识库远比重新训练或微调整个大模型要简单、快速且经济。只需维护和更新外部数据源，LLM就能即时利用这些新知识。
降低成本: 相较于为特定领域、特定任务频繁地微调（Fine-Tuning）甚至重新预训练大型语言模型，RAG提供了一种成本效益更高的解决方案来定制和更新LLM的知识。
增强可信度: RAG系统可以（也应该被设计成）展示其答案所依据的原始文档或数据片段，允许用户验证信息的来源和准确性。
个性化与定制化: 能够根据特定用户群体的需求或特定应用场景，接入定制化的私有知识库，提供高度相关的个性化服务。

二、RAG 原理

RAG的工作流程可以概括为一系列逻辑步骤，旨在将外部知识无缝地融入LLM的生成过程中。

1、工作流程概览:

输入 (Input / Query): 用户通过自然语言提出问题、指令或请求。
检索 (Retrieve) :

系统接收用户输入后，首先利用检索模块（Retriever）从预先构建和索引化的外部知识库（Vector Database, Document Store等）中查找与用户输入最相关的信息片段（Chunks/Documents）。
通常，用户输入会被转换为向量表示（Embedding），然后在向量空间中与知识库中文档块的向量进行相似度计算（如余弦相似度），找出得分最高的Top-K个结果。

增强 (Augment) :

将上一步检索到的相关信息片段（上下文）与用户的原始输入整合。
这种整合通常是通过一个精心设计的提示模板（Prompt Template）来完成的，该模板会清晰地指示LLM如何利用提供的上下文来回答原始问题。

生成 (Generate) :

将包含了原始查询和检索到的上下文的增强提示（Augmented Prompt）输入给大型语言模型（Generator）。
LLM基于这个增强的提示生成最终的回答或内容。由于有了相关的上下文信息作为“锚点”，LLM的输出会更加聚焦、准确，并更少出现幻觉。

在这里插入图片描述

2、核心组件解析:

检索器 (Retriever):

作用: 检索器的核心任务是从庞大的外部知识库中，根据用户的查询，快速、准确地找到最相关的信息片段。检索器的性能直接决定了后续生成器接收到的上下文质量，进而影响最终答案的质量。

运作机制 :

查询理解与转换 (Query Understanding & Transformation): 接收到用户原始查询后，可能需要进行一系列预处理，如去除停用词、词形还原/词干提取（对传统检索）、查询扩展（增加同义词或相关词）、将查询转换成与知识库中文档表示一致的格式（如向量化）。
相似度搜索 (Similarity Search): 这是稠密检索的核心。将转换后的查询（通常是查询向量）与知识库中预先计算好的文档块向量进行比较。常用的相似度度量包括余弦相似度、点积（内积）、欧氏距离等。目标是找出与查询向量在语义空间中最接近的Top-K个文档块。

3. 常用技术 :

传统关键词检索 (Sparse Retrieval): 如TF-IDF、BM25 (Best Match 25)。它们基于词频和逆文档频率来匹配查询中的关键词，对精确的术语匹配效果较好，但难以处理语义相似但词汇表达不同的情况。
稠密向量检索 (Dense Retrieval): 基于深度学习的嵌入模型（如Sentence-BERT, OpenAI Embeddings, BGE, M3E等）将查询和文档都映射到高维语义向量空间。通过计算向量间的距离或相似度来检索，能更好地捕捉语义信息。
- 混合检索 (Hybrid Search): 结合稀疏检索和稠密检索的优点，通过加权融合两者的得分或使用更复杂的融合策略，以期达到更优的检索效果。

生成器 (Generator):

作用: 生成器的角色是大型语言模型（LLM）。它接收由检索器提供的相关上下文信息以及用户的原始查询，并基于这些输入生成连贯、准确、符合用户意图的文本输出（答案）。

运作机制 :

上下文整合 (Context Integration): 将检索到的Top-K个文档块（上下文）与用户的原始查询（以及可能的对话历史、特定指令等）按照预先设计好的提示模板（Prompt Template）组装起来。这个模板的设计至关重要，它需要清晰地告诉LLM其任务是什么，哪些是背景知识，问题是什么。
2. 受控生成 (Controlled Generation): LLM在处理这个包含了丰富上下文的增强提示时，其生成过程会受到这些上下文信息的“约束”或“引导”。理想情况下，LLM会优先利用提供的上下文来构建答案，而不是完全依赖其内部的参数化知识。这有助于确保答案的事实性，并减少脱离主题或产生幻觉的风险。
3. 常见模型: 目前主流的预训练大型语言模型都可以作为RAG系统中的生成器，例如OpenAI的GPT系列（如GPT-3.5, GPT-4, GPT-4o）、Meta的LLaMA系列、Google的Gemini系列，以及国内的百度文心系列（如ERNIE-Bot 4.0）、科大讯飞的讯飞星火、阿里巴巴的通义千问等。模型的选择通常取决于任务需求、性能、成本以及是否需要本地部署等因素。

三、RAG 架构

一个典型的RAG系统通常包含多个协同工作的模块，以实现从数据吸收到答案生成的完整流程。以下是一个模块化的RAG系统架构图及其关键模块的详细解释。

1、RAG 系统模块化架构图 (概念示意)

（此图旨在概念性展示RAG主要模块及其交互，非严格技术UML图）
在这里插入图片描述

关键模块详解:

数据准备与索引模块 (Data Ingestion & Indexing Pipeline):
功能: 这是构建RAG系统的基石，负责将分散在各种来源和格式的原始数据（如PDF文档、Word文件、HTML网页、纯文本、数据库记录等）转换成可供高效检索的结构化或半结构化形式，并建立相应的索引。

子步骤 :
1. 数据加载 (Loading): 使用相应的加载器（Loaders）从不同的数据源（文件系统、URL、数据库、APIs等）读取原始数据。例如，LangChain提供了PyPDFLoader、WebBaseLoader等多种加载器。
2. 文本分割/分块 (Splitting/Chunking): 由于LLM的上下文窗口（Context Window）大小有限，并且较小的文本单元通常能带来更精确的检索结果，因此长文档需要被切分成大小适中、语义相对完整的文本块（Chunks）。切分策略很重要，简单的固定长度切分可能破坏语义完整性，更高级的方法会考虑句子边界、段落结构，甚至是语义连贯性。常见的块大小可能在几百到一千个tokens。
3. 向量化 (Embedding): 使用文本嵌入模型（如OpenAI的text-embedding-ada-002、Sentence Transformers系列如all-MiniLM-L6-v2，或中文场景的BAAI/bge-large-zh-v1.5、moka-ai/m3e-base等）将每一个文本块转换成一个高维的浮点数向量（Embedding）。这个向量能够捕捉文本块的语义信息。
4. 索引存储 (Storing/Indexing): 将原始文本块及其对应的向量表示存储到专门的向量数据库中（如FAISS, Milvus, Pinecone, Weaviate, Chroma, Qdrant等，或者Elasticsearch/OpenSearch这类支持密集向量搜索的传统搜索引擎）。向量数据库会为这些向量构建高效的索引（如HNSW, IVF_PQ等），以便于快速进行相似度搜索。除了向量，通常还会存储文本块的原始内容和相关的元数据（如来源文档ID、页码、标题等）。这个过程通常是离线批量完成的，但也可以支持增量更新。

查询与检索模块 (Querying & Retrieval Pipeline):

功能: 当用户发起查询时，此模块负责实时地从已经构建好的索引中找到与查询最相关的信息片段。

子步骤 :

用户查询处理 (User Query Processing): 用户的自然语言查询首先也需要经过与文档索引时相同的（或兼容的）嵌入模型进行向量化，转换成查询向量。有时还会进行查询扩展或重写，以提高检索召回率。
2. 相似度检索 (Similarity Search): 使用查询向量在向量数据库中执行相似度搜索（例如，查找余弦相似度最高或欧氏距离最近的K个向量）。向量数据库利用其内部索引（如HNSW图）来加速这一过程，避免全量比较。检索结果是Top-K个最相关的文本块的ID或引用，以及它们的相似度得分。
3. (可选) 重排序 (Re-ranking): 初步检索（也称“召回”）得到的Top-K结果可能包含了部分不那么精确或相关性较低的文档块。重排序步骤使用一个更强大、计算成本通常也更高的模型（如Cross-Encoder模型，它会同时考虑查询和候选文档）对这些初步结果进行重新打分和排序，以期将真正最相关的文档块排在更前面，从而提升最终提交给LLM的上下文质量。

增强与生成模块 (Augmentation & Generation Pipeline):

功能: 这一模块的核心是将检索到的信息有效地与用户原始问题结合，并利用LLM生成最终的、高质量的答案。

子步骤:

Prompt构建 (Prompt Construction/Engineering): 这是非常关键的一步。将检索（并可能已重排序）到的相关文本块、用户的原始问题，以及可能的对话历史、角色设定、任务指令（如“请根据以下信息回答问题”、“如果信息不足请说不知道”等）按照一个预先精心设计的模板（Prompt Template）组装成一个完整的、结构化的Prompt。这个Prompt是LLM进行生成任务的直接输入。
2. LLM调用 (LLM Invocation): 将构建好的增强Prompt发送给选定的大型语言模型。
3. 答案生成与后处理 (Answer Generation & Post-processing): LLM基于输入的增强Prompt生成回答。生成的原始答案可能还需要进一步的后处理，例如：去除冗余信息、格式化输出（如生成Markdown、JSON）、进行敏感内容过滤、添加引用来源（如果Prompt设计支持且LLM能做到）等，以确保最终呈现给用户的答案是友好、准确和有用的。

2、RAG架构关键要点

模块化设计：RAG系统通常被设计为一系列可插拔的模块，便于单独优化和替换。
数据流清晰：从原始数据到最终答案，信息经过加载、处理、索引、检索、增强和生成等多个阶段。
核心在于检索质量和Prompt工程：高质量的检索结果是生成优质答案的前提，而精心设计的Prompt能最大化LLM利用上下文的能力。
可扩展性：选择合适的向量数据库和LLM部署方案对系统的可扩展性和性能至关重要。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！