AI大模型系列教程--RAG检索增强,大模型入门到精通，收藏这篇就足够了！

本教程将从 RAG 基本流程出发，逐步讲解多轮对话优化、各环节改进策略，帮助你掌握 RAG 应用的构建与优化方法。

程序学到昏

551人浏览 · 2025-09-25 10:13:28

程序学到昏 · 2025-09-25 10:13:28 发布

检索增强生成（Retrieval-Augmented Generation，简称 RAG）是解决大模型 “知识过时”“幻觉输出” 等问题的关键技术，通过将外部知识库与大模型生成能力结合，让模型基于真实、最新的信息输出答案。本教程将从 RAG 基本流程出发，逐步讲解多轮对话优化、各环节改进策略，帮助你掌握 RAG 应用的构建与优化方法。

一、RAG 基本流程：从索引到生成的完整链路

RAG 的核心逻辑是 “先检索、后生成”，整体流程分为建立索引和检索生成两大阶段，辅以 “保存与加载索引” 提升效率，具体步骤如下：

（一）建立索引：为知识库 “打造检索地图”

建立索引是 RAG 的基础，目的是将非结构化的文档转化为可快速检索的向量数据，包含 4 个关键步骤：

文档解析

将知识库中的原始文档（如 PDF、Word、TXT 等）加载并解析为纯文字形式。例如，将一份包含表格和图片的产品手册，提取其中的文字内容（表格内容需转化为结构化文本，图片需通过 OCR 提取文字），确保大模型能理解文档核心信息，例如，使用PyPDF2库解析 PDF 文件，示例代码如下。

import PyPDF2

defparse_pdf(pdf_path):
    text = ""
with open(pdf_path, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
for page in reader.pages:
            text += page.extract_text()
return text

文本分段

对解析后的长文本进行 “切片” 处理。若直接用整文档检索，会导致匹配效率低、无关信息干扰多；若切片过细，又会丢失上下文。常见的切片逻辑包括：按固定字数分割（如每 500 字一段）、按章节 / 段落分割，或结合语义连贯性分割（避免切断完整逻辑），以下是按固定字数分割的 Python 代码示例：

def split_text(text, chunk_size=500):
    chunks = []
    start = 0
while start < len(text):
        end = min(start + chunk_size, len(text))
        chunks.append(text[start:end])
        start = end
return chunks

文本向量化

借助嵌入（Embedding）模型，将每个文本片段和用户问题转化为高维向量（如 768 维、1536 维）。向量的相似度越高，代表文本语义越接近。例如，用Open AI的 Embedding 模型，将 “如何申请年假” 和 “年假申请流程” 转化为向量后，两者的余弦相似度会显著高于与 “薪资计算” 的相似度，如下代码所示，将文字转为向量，将会打印一串整形数字向量：

import openai

openai.api_key = "YOUR_API_KEY"

defget_embedding(text):
    response = openai.Embedding.create(
        input=text,
        model="text - embedding - ada - 002"
    )
return response['data'][0]['embedding']

get_embedding('如何申请年假')

存储索引

将向量化后的文本片段存储到向量数据库中，形成可高效检索的 “向量索引”。向量数据库能快速计算用户问题向量与库中所有片段向量的相似度，实现毫秒级召回相关内容。

（二）检索生成：基于真实信息输出答案

当用户提出问题时，RAG 通过 “检索相关片段→结合片段生成答案” 的流程，确保输出的准确性，具体步骤如下：

检索阶段

先用 Embedding 模型将用户问题转化为向量；
向量数据库计算该向量与库中所有文本片段向量的相似度，召回最相关的 Top N 个片段（如 Top 5、Top 10）；
例如，用户问 “公司年假有多少天”，检索系统会从向量数据库中召回包含 “年假天数”“年假政策” 的文本片段。

生成阶段

将 “用户问题 + 召回的相关片段” 通过提示词模板组合，输入大模型生成最终答案。此时大模型的核心作用是 “总结整合”，而非依赖自身训练数据，从根源减少幻觉。

典型提示词模板如下：

请严格根据以下参考信息回答用户问题，不添加参考信息外的内容：

{召回文本段1}

{召回文本段2}

...

用户的问题是：{question}

要求：回答简洁、逻辑清晰，直接回应问题核心。

（三）保存与加载索引：提升复用效率

首次建立索引后，可将索引文件（如向量数据库快照、Embedding 结果）保存到本地或云端。后续使用时直接加载索引，无需重新解析、分段、向量化，能将 RAG 响应速度提升 5-10 倍，尤其适合知识库更新频率低的场景（如固定政策文档、历史案例库）。

二、RAG 多轮对话：解决历史信息丢失问题

在多轮对话中（如 “我能申请年假吗？”→“申请需要什么材料？”），若仅用用户当前问题检索，会丢失前序对话信息，导致检索结果偏差。例如，用户第二次问 “申请需要什么材料” 时，系统可能无法判断是 “年假申请” 还是 “报销申请”。

多轮对话的核心解决方案：问题改写

通过大模型将 “当前问题 + 历史对话” 整合，改写为包含完整意图的新查询（New Query） ，再用新查询执行检索。具体流程如下：

收集历史对话记录（如前 3 轮对话内容）；

用提示词引导大模型改写问题：

角色：你是问题改写专家，需结合历史对话，将用户当前问题改写为独立、完整的查询。

历史对话：

用户：我能申请年假吗？

系统：可以，需满足入职满1年的条件。

用户当前问题：申请需要什么材料？

改写要求：新查询需包含“年假申请”的核心意图，无需冗余信息。

改写结果：

大模型输出新查询：“年假申请需要准备什么材料？”；

用新查询执行检索与生成，确保结果准确关联 “年假” 场景。

三、RAG 各环节优化策略：从基础到进阶

RAG 的效果依赖每个环节的细节优化，以下从 “文档准备→解析切片→向量化存储→检索召回→答案生成” 全链路，提供可落地的改进方案。

（一）文档准备阶段：对齐 “意图空间” 与 “知识空间”

RAG 的本质是 “用知识库的知识满足用户意图”，需先明确两个核心空间的关系，再针对性优化：

空间类型	定义	优化策略
意图空间	用户提问背后的真实需求（如 “查年假政策”“问报销流程”）	1. 建立用户意图收集机制（如对话日志分析、用户反馈调研）；2. 邀请领域专家标注高频意图（如 HR 场景的 “薪资”“考勤”“福利”）。
知识空间	知识库中可提供答案的知识点（如段落、章节）	1. 补充 “未覆盖的意图空间”：若用户常问 “远程办公政策” 但知识库无相关内容，需新增文档；2. 清理 “未利用的知识空间”：删除与用户意图无关的内容（如过期的旧政策）。

关键原则：优先通过 “补充知识库内容” 优化效果，再考虑算法改进。若知识库本身缺少用户需要的信息，任何检索算法都无法提升准确性。

（二）文档解析与切片阶段：平衡 “信息完整” 与 “噪声减少”

解析和切片直接影响检索片段的质量，常见问题及解决方案如下：

1. 文档解析问题与改进

问题类型	改进策略	场景示例
格式不支持（如 Keynote、CAD）	1. 开发专属解析器；2. 批量转换为支持格式（如 PDF、Markdown）	某企业用 Keynote 存储产品方案，可先将 Keynote 导出为 PDF，再用 PDF 解析器提取文字。
特殊内容无法提取（表格、图片）	1. 表格：转化为 Markdown 表格格式；2. 图片：用 OCR 提取文字 + 标注图片主题	文档中 “员工薪资等级表”，转化为 Markdown 表格后，检索时能精准匹配 “薪资等级” 相关问题。

2. 文本切片优化：选择合适的切片方法

不同切片方法适用于不同场景，需根据文档类型和模型能力选择：

切片方法	原理	适用场景	选择建议
Token 切片	按固定 Token 数分割（如每 256 Token 一段）	模型上下文长度有限（如≤1024 Token）	避免模型输入超限，适合轻量级模型
句子切片	按句子边界分割（保持句子完整）	大多数通用场景（如政策文档、新闻）	新手入门首选，平衡效率与上下文完整性
句子窗口切片	每个切片包含前后 N 个句子作为上下文	长文档（如论文、报告），需关联上下文	检索 “某结论的推导过程” 时，补充前后文片段
语义切片	按语义相关性分割（如 “章节内子主题”）	逻辑性强的文档（如技术手册、教程）	避免切断 “问题 - 解决方案”“原因 - 结果” 等逻辑链
Markdown 切片	按 Markdown 语法分割（如 #标题、## 子标题）	Markdown 格式文档（如 GitHub 文档、笔记）	精准匹配 “某标题下的内容”，提升检索精度

优化案例：某技术手册用 “语义切片” 后，用户问 “如何调试 API 接口”，检索系统能召回 “API 调试步骤”“常见错误解决” 两个关联片段，而非零散的句子。

（三）切片向量化与存储阶段：选择工具提升检索效率

向量化和存储的核心是 “选对模型 + 选对数据库”，直接影响检索速度和准确性。

1. Embedding 模型选择

核心原则：优先选择与大模型同生态、更新时间近的模型。例如，使用阿里云百炼大模型时，搭配百炼 Embedding 模型，语义匹配度更高；
效果差异：新模型（如 Qwen-Embedding-V2）比旧模型（如 BERT-Base）的向量区分度提升 30% 以上，能减少 “相似问题误判”（如 “年假申请” 与 “病假申请”）。

2. 向量数据库选择

根据应用规模选择合适的存储方案，兼顾成本与性能：

存储类型	特点	适用场景	推荐方案（阿里云）
内存向量存储	速度快、无运维成本，但重启后数据丢失	开发测试、临时验证	百炼内置内存向量存储
本地向量数据库	数据持久化、需自行运维	小规模应用（日活≤100）	Milvus 本地版、Chroma
云服务向量存储	自动扩容、监控完善、按量付费	生产环境（高并发、大规模数据）	向量检索服务（DashVector）、PolarDB 向量功能

云服务优势：支持 “向量检索 + 标量过滤” 混合查询（如 “检索‘年假’相关片段，且发布时间≥2024 年”），进一步提升检索精度。

（四）检索召回阶段：精准定位相关片段

检索召回的核心问题是 “如何从海量片段中找到最相关的内容”，可从 “检索前” 和 “检索后” 两个时机优化：

1. 检索前：优化查询，还原真实意图

通过改写、扩写问题，让查询更精准，常见策略如下：

策略	操作方法	示例
问题改写	补充模糊信息，明确意图	“附近有好吃的吗？”→“推荐我公司附近评分≥4.5 的餐厅”
问题扩写	增加相关维度，扩大检索范围	“张伟是哪个部门的？”→“张伟的部门、联系方式、职责是什么？”
基于用户画像扩写	结合用户身份补充上下文	内容工程师问 “工作注意事项”→“内容工程师的工作注意事项”
提取标签过滤	从问题中提取标签，缩小检索范围	“内容工程师注意事项”→标签：{岗位：内容工程师}，检索时先过滤标签

2. 检索后：过滤噪声，提升片段质量

召回片段后，通过 “重排序”“补充上下文” 进一步优化：

重排序（ReRank）：用文本排序模型（如阿里云百炼 ReRank 模型）对召回的 Top 20 片段重新打分，筛选出 Top 3-5 个最相关片段，减少无关信息干扰；
滑动窗口检索：召回某片段后，补充其前后 N 个片段作为上下文。例如，检索到 “年假申请需提交申请表”，补充前后的 “申请表下载路径”“提交截止时间”，确保信息完整。

（五）生成答案阶段：避免幻觉，提升输出质量

即使检索到相关片段，仍可能出现 “模型捏造答案”“输出不符合要求” 等问题，可从 3 个维度优化：

选择合适的大模型

通用场景（如政策问答）：选择平衡速度与准确性的模型（如 Qwen2.5-7B）；
专业场景（如法律、医疗）：选择专业领域微调模型（如百炼法律大模型），减少专业术语错误。

优化提示词模板

明确 “限制条件” 和 “输出格式”，例如：

请根据以下参考信息回答用户问题，严格遵守规则：

参考信息：{召回片段1}{召回片段2}

用户问题：{question}

规则：

1. 若参考信息中无答案，直接回复“暂无相关信息”，不编造内容；

2. 答案分点列出，每点不超过20字；

3. 必须引用参考信息中的具体表述（如“根据第3条：XXX”）。

调整模型参数

温度（Temperature）：设为 0.1-0.3，降低随机性，避免幻觉；
最大生成长度：根据片段长度设置（如片段共 500 字，最大生成长度设为 300 字），避免输出过长或过短。

四、RAG 应用实战：以 “企业 HR 问答系统” 为例

结合上述流程与优化策略，构建一个 “企业 HR 问答系统”，具体步骤如下：

文档准备：收集企业 HR 文档（员工手册、年假政策、薪资计算规则等），补充 “远程办公政策”“新员工入职流程” 等高频意图相关内容；

文档解析与切片：将文档转为 Markdown 格式，用 “Markdown 切片” 按 “# 章节→## 子标题” 分割，每个切片包含 1 个完整子主题（如 “年假申请条件”“年假天数计算”）；

向量化与存储：用百炼 Embedding 模型向量化切片，存储到阿里云 DashVector（生产环境）；

检索优化：

检索前：用户问 “我能休年假吗？”，结合用户画像（入职时间 2 年）改写为 “入职 2 年的员工能否申请年假？”；
检索后：召回 Top 10 片段，用 ReRank 模型筛选 Top 3，补充前后 1 个句子作为上下文；

生成答案：用百炼大模型，搭配优化后的提示词模板，输出分点答案，并引用手册条款。

五、总结

RAG 的核心价值是 “让大模型基于真实信息回答”，其效果优化需贯穿 “文档准备→检索→生成” 全链路。新手入门时，可先按 “句子切片 + 内存向量存储 + 基础提示词” 搭建最小原型，再逐步通过 “问题改写、重排序、知识库补充” 提升效果。在生产环境中，优先选择云服务向量数据库和专业 Embedding 模型，兼顾性能与运维效率。

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

北京朝阳AI社区

更多推荐

隐式上下文挖掘：从用户点击行为中预测潜在需求的黑科技在大模型能力日益强大的今天，AI“会不会写代码”已不再是问题，真正决定其能否成为开发者得力助手的关键，在于它“能不能理解上下文”。技术术

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运