大模型RAG技术精讲:5种分块策略与4种进化方案【建议收藏】
本文详细介绍了RAG技术的演进与优化,包括5种文本分块策略和4种RAG方案(传统RAG、HyDE、Graph RAG、Agentic RAG)。这些技术从简单到复杂、从静态到动态,不断优化检索增强生成的效果,是提升大模型生成质量的关键技术。根据文档类型和应用场景选择合适的策略,能有效提高RAG系统的召回率和准确率。
本文详细介绍了RAG技术的演进与优化,包括5种文本分块策略和4种RAG方案(传统RAG、HyDE、Graph RAG、Agentic RAG)。这些技术从简单到复杂、从静态到动态,不断优化检索增强生成的效果,是提升大模型生成质量的关键技术。根据文档类型和应用场景选择合适的策略,能有效提高RAG系统的召回率和准确率。
RAG虽然是最早应用的技术,也在不断的进化,AI系统的好坏,RAG的质量几乎起着决定性作用。优秀的RAG系统召回率几乎能做到100%,准确率能做到99%以上。本文来聊聊这些新技术。
RAG(检索增强生成)的5种文本分块策略

分块(Chunking)是RAG流程中的关键预处理步骤,其目的是将冗长的文档切分成更小、更易于管理的片段(chunks),以便于后续的向量化、检索,并最终提高大模型生成答案的质量。
1. 固定大小分块 (Fixed-size chunking)
- 原理:这是最简单、最常用的策略。它预先设定两个关键参数:块的大小(如字符数或token数)和重叠量(overlap)。
- 操作方式:像一个固定大小的滑动窗口一样在文本上移动。如图所示,它会先取第一段文本“Artificial intelligence is transforming technology”作为 Chunk 1。然后,窗口向后移动,但会包含上一块末尾的一部分内容(“transforming technology”)作为 Chunk 2 的开头,以此类推。
- 优点:简单、快速、计算开销小。
- 缺点:可能会生硬地切断完整的语义单元(如一个句子或一个概念),导致信息不完整。
- 适用场景:文档结构不明确或对处理速度要求极高的场景。
2. 语义分块 (Semantic chunking)
- 原理:根据文本内容的语义相关性或语义连贯性来动态确定分块的边界,目标是让每个块都包含一个尽可能完整的语义主题。
- 操作方式:如图所示,流程从创建一个初始块开始。系统会持续向当前块添加新的文本段落(sentences),并实时计算块内内容的余弦相似度(一种衡量向量间相似度的指标)。当新加入的文本导致整体相似度急剧下降时,说明语义发生了显著转折,此时就在此处切断,形成最终的块。然后开始下一个块的过程。
- 优点:能产生语义上更连贯、更完整的块,检索质量通常更高。
- 缺点:计算复杂度高,需要嵌入模型(Embedding Model)来将文本转化为向量并计算相似度。
- 适用场景:对检索精度要求高的场景,如学术文献、技术文档等。
3. 递归分块 (Recursive chunking)
- 原理:采用“分而治之”的思想,通过分层、递归的方式将文档由大变小。它使用一组预定义的分隔符(如 \n\n, \n, ., !, ?, …),并按优先级尝试分割。
- 操作方式:如图所示,流程从整个文档开始。首先尝试用最高优先级的分隔符(如双换行符\n\n)进行分割。如果分割后得到的块仍然太大,就对这块大的文本递归地使用下一优先级的分隔符(如单换行符\n)再次分割,重复此过程,直到所有块的大小都满足要求。
- 优点:比固定大小分块更能尊重段落和句子的自然边界,是实践中非常流行且有效的折中方案。
- 缺点:分隔符的选择和优先级设置需要根据文档类型进行调整。
- 适用场景:通用性很强,尤其适用于格式良好、有段落结构的文档。
4. 基于文档结构的分块 (Document structure-based chunking)
- 原理:利用文档固有的逻辑结构或标记(Markup)来进行分块。它假设文档本身具有清晰的结构,如标题、章节、段落等。
- 操作方式:如图所示,直接按照 Title(标题)、Introduction(引言)、Section #1(章节1)、Section #2(章节2)、Conclusion(结论)等结构单元来划分文本。每个单元或其组合可以形成一个块。图中备注提到,如果某个结构单元(如一个章节)本身内容过长,可以与递归分块策略结合使用,对该章节进行进一步的递归分割。
- 优点:分块的逻辑性与人类的理解方式高度一致,块的质量非常高。
- 缺点严重依赖于文档本身是否具有良好的结构,对于纯文本或无格式文档效果不佳。
- 适用场景:处理HTML、Markdown、PDF(带书签)、LaTeX等具有明确标签和结构的文档。
5. 基于大语言模型的分块 (LLM-based chunking)
- 原理:将分块任务直接交给大语言模型来完成,利用其强大的语义理解能力。
- 操作方式:如图所示,将整个或部分文档输入给LLM,并指令模型根据内容语义,自主地将文档划分为一系列连贯的、有意义的块。LLM可能会生成像 Chunk 1: [Title, Introduction], Chunk 2: [Introduction, Section #2, Conclusion] 等这样的输出。这种方法非常灵活,甚至可以理解跨段落的概念聚合。
- 优点:智能化程度最高,能产生语义上最优的分块结果。
- 缺点:成本最高、速度最慢,并且需要精心设计提示词(Prompt)。
- 适用场景:当其他分块方法都无法满足极致精度要求,且不计较成本时的备选方案。
这五种策略从简单机械到复杂智能,各有优劣。在实际应用中,通常需要根据文档类型、应用场景和对成本与性能的权衡来选择最合适的策略,有时也会将多种策略组合使用。
传统RAG(检索增强生成)与HyDE、Graph RAG 和 Agentic RAG。

1. 传统 RAG (Traditional RAG)
这是所有方案的基础,也是其他方案改进的起点。
-
核心流程(如图的上半部分所示):
- 索引阶段:将“额外文档”通过嵌入模型编码成向量,并存入向量数据库中建立索引。
- 检索与生成阶段:当用户提出“查询”时,同样用嵌入模型将其编码为向量,然后在向量数据库中进行相似性搜索,找到最相关的文档片段。
- 将这些检索到的文档作为上下文,与原始查询一起组合成一个提示,发送给大语言模型,由LLM生成最终响应。
-
优点:简单直接,能有效利用外部知识,减少LLM的幻觉。
-
缺点:高度依赖“词袋”模型的向量相似性。如果用户查询用语和文档中的用语不匹配(例如,查询是“怎么养盆栽”,而文档中是“室内植物养护指南”),就可能检索不到最相关的信息,导致效果下降。
2. HyDE (Hypothetical Document Embeddings)
HyDE 旨在解决传统RAG查询与文档用语不匹配的问题。
-
核心创新:在检索之前,先让LLM根据查询生成一个假设的答案或文档。
-
流程(如图下半部分所示):
- 用户输入“查询”。
- 首先将查询发送给LLM,让其生成一段“假设的文本”(Hypothetical text)。这段文本是LLM认为的、可能包含答案的理想文档的样式。
- 将这段生成的假设文本(而不是原始查询)通过嵌入模型编码,去向量数据库中进行相似性搜索。
- 后续步骤与传统RAG相同:用检索到的真实文档和原始查询一起提示LLM,得到最终响应。
-
优点:生成的假设文本更丰富、更规范,能更好地与向量数据库中的文档在语义上对齐,从而显著提升检索质量,特别是在处理模糊或简短的查询时。
-
缺点:增加了一次LLM调用,开销稍大,且生成的假设文本如果偏离太远,也可能带来噪声。
3. Graph RAG

Graph RAG 引入了知识图谱来捕捉文档中深层的、结构化的语义关系,超越传统的向量匹配。
-
核心创新:在索引阶段,不是简单地将文档切成片段并向量化,而是先用LLM从文档中提取实体(Nodes)和关系(Relationships),构建成一个知识图谱。
-
流程(如第二张图下半部分所示):
- 图生成:使用“LLM图生成器”处理“额外文档”,抽取出实体和关系,形成知识图谱。
- 对图谱中的实体和关系进行编码和索引(可能同时使用向量索引和图数据库)。
- 对于查询,既可以通过传统的向量相似性搜索,也可以利用图的特性进行图遍历,找到相关联的实体簇,从而获得更广泛、更相关的上下文信息。
-
优点:能理解“苹果->生产->iPhone”这种复杂关系,可以进行多跳推理(例如,通过公司CEO关联到其公司的产品)。检索到的上下文不再是孤立的文本片段,而是一个相互关联的知识子图,信息量更大、逻辑性更强。
-
缺点:构建图谱的成本高昂,技术复杂度也远高于前两种方案。
4. Agentic RAG

Agentic RAG 将智能体概念引入RAG,使整个过程从静态流程变为动态、循环的决策过程。
-
核心创新:由一个LLM智能体作为“大脑”,自主决定如何执行检索任务。它可以根据情况重写查询、选择数据源、判断信息是否足够、决定是否进行多轮检索。
-
流程(如第三张图下半部分所示):
-
用户输入“查询”。
-
LLM智能体开始工作,其步骤可能包括:
- 重写查询(Rewrite the initial query)以优化检索。
- 判断是否需要更多细节(判断是否需更多细节)。
- 选择工具/数据源(选数据源),可能包括向量数据库、互联网搜索、API工具等。
- 执行检索并评估检索结果的相关性(相关性判断)。
-
这个“决策-执行-评估”的循环可能会进行多次,直到智能体认为它拥有了足够的信息来回答问题。
-
最终,智能体综合所有检索到的信息生成“最终响应”。
-
-
优点:极其灵活和强大,能处理复杂、多步骤的查询任务,更接近人类的研究方式。它不再是一次性的检索,而是一个多轮的、目标驱动的过程。
-
缺点:延迟最高,计算成本最大,并且需要非常精心地设计智能体的提示词和工具。
这四种方案代表了RAG技术从简单到复杂、从静态到动态的演进路径。
- 传统RAG是基础且高效的方案。
- HyDE通过优化查询端来提升基础RAG的效果。
- Graph RAG通过优化知识表示(索引端)来挖掘深层信息。
- Agentic RAG则通过引入智能体,彻底改变了RAG的执行范式,使其具备了解决超复杂问题的能力。
大模型未来如何发展?普通人如何抓住AI大模型的风口?
※领取方式在文末
为什么要学习大模型?——时代浪潮已至
随着AI技术飞速发展,大模型的应用已从理论走向大规模落地,渗透到社会经济的方方面面。
- 技术能力上:其强大的数据处理与模式识别能力,正在重塑自然语言处理、计算机视觉等领域。
- 行业应用上:开源人工智能大模型已走出实验室,广泛落地于医疗、金融、制造等众多行业。尤其在金融、企业服务、制造和法律领域,应用占比已超过30%,正在创造实实在在的价值。

未来大模型行业竞争格局以及市场规模分析预测:
同时,AI大模型技术的爆发,直接催生了产业链上一批高薪新职业,相关岗位需求井喷:
AI浪潮已至,对技术人而言,学习大模型不再是选择,而是避免被淘汰的必然。这关乎你的未来,刻不容缓!
那么,我们如何学习AI大模型呢?
这份精心整理的AI大模型学习资料,我整理好了,免费分享!只希望它能用在正道上,帮助真正想提升自己的朋友。让我们一起用技术做点酷事!
ps:微信扫描即可获取
加上后我将逐一发送资料
与志同道合者共勉
真诚无偿分享!!!

适学人群
我们的课程体系专为以下三类人群精心设计:
-
AI领域起航的应届毕业生:提供系统化的学习路径与丰富的实战项目,助你从零开始,牢牢掌握大模型核心技术,为职业生涯奠定坚实基础。
-
跨界转型的零基础人群:聚焦于AI应用场景,通过低代码工具让你轻松实现“AI+行业”的融合创新,无需深奥的编程基础也能拥抱AI时代。
-
寻求突破瓶颈的传统开发者(如Java/前端等):将带你深入Transformer架构与LangChain框架,助你成功转型为备受市场青睐的AI全栈工程师,实现职业价值的跃升。

※大模型全套学习资料展示
通过与MoPaaS魔泊云的强强联合,我们的课程实现了质的飞跃。我们持续优化课程架构,并新增了多项贴合产业需求的前沿技术实践,确保你能获得更系统、更实战、更落地的大模型工程化能力,从容应对真实业务挑战。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
01 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。希望这份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

👇微信扫描下方二维码即可~

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
02 大模型学习书籍&文档
新手必备的权威大模型学习PDF书单来了!全是一系列由领域内的顶尖专家撰写的大模型技术的书籍和学习文档(电子版),从基础理论到实战应用,硬核到不行!
※(真免费,真有用,错过这次拍大腿!)

03 AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

04 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

05 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。


06 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

由于篇幅有限
只展示部分资料
并且还在持续更新中…
ps:微信扫描即可获取
加上后我将逐一发送资料
与志同道合者共勉
真诚无偿分享!!!
最后,祝大家学习顺利,抓住机遇,共创美好未来!
更多推荐


所有评论(0)