8类主流RAG架构深度解析:选对方案,让LLM应用更高效
8类主流RAG架构深度解析:选对方案,让LLM应用更高效
在大语言模型(LLM)的落地实践中,检索增强生成(RAG)技术是破解模型“知识陈旧”“幻觉输出”等核心痛点的关键手段。它通过将用户查询与外部知识库关联,让LLM基于检索到的精准信息生成答案,显著提升了输出的可靠性。随着应用场景从简单事实查询向跨模态交互、复杂逻辑推理等方向拓展,RAG架构也在持续迭代,演化出多种适配不同需求的类型。
本文将系统梳理8类主流RAG架构,解析其核心逻辑、特点及适用场景,帮助技术从业者根据业务需求选择更合适的方案。
1、基础版RAG(Naive RAG):RAG的原始形态
基础版RAG是RAG技术的雏形,核心目标是解决LLM无法实时获取外部最新信息的问题。其工作逻辑基于向量相似度匹配:先将知识库中的文档转换为向量嵌入并存储,当用户发起查询时,系统会把查询也转换为向量,通过计算向量间的余弦相似度,从知识库中检索出最相关的文档,最后将文档与查询一同输入LLM生成答案。
目前多数入门教程或文章中介绍的RAG,多为此类基础架构。
其流程可总结为:
用户查询 → 嵌入模型向量化 → 基于余弦相似度检索向量数据库 → 检索结果注入提示模板 → LLM生成最终输出
这种架构的优势在于实现简单、运行高效,适合处理简单的事实类查询——例如“某部法律的生效日期”“某款产品的核心参数”等场景。这类场景中,查询与文档的语义匹配直接明确,无需复杂推理或多源信息整合。
但基础版RAG的局限性也很突出:仅支持文本类数据,且完全依赖向量相似度。当查询涉及多轮逻辑、跨领域关联或非文本信息时,检索效果会明显下降。为应对更丰富的数据类型,多模态RAG应运而生。
2、 多模态RAG(Multimodal RAG):打破数据类型边界
多模态RAG是在基础版RAG上的扩展,核心解决单模态(仅文本)处理能力的局限。它支持对文本、图像、音频、视频等多种数据类型进行统一处理:通过跨模态嵌入模型(如CLIP、BLIP-2),将不同类型的数据转换为可比较的向量,实现“以文本查询检索图像”“以音频片段匹配文本说明”等跨模态检索场景。
其流程可总结为:
用户查询(文本/图像/音频)→ 多模态嵌入模型编码 → 跨模态检索(如文本-图像对齐)→ 结果注入多模态提示 → 多模态LLM(如Flamingo)生成
这种架构的特点是打破了数据类型的壁垒,适用于需要整合多类信息的场景——例如电商平台中“用商品图片查询用户评价”、教育领域“用课程视频片段匹配课件文本”、媒体内容管理中“用新闻音频检索相关报道文本”等。
不过,多模态RAG仍依赖查询与文档的直接语义关联,当查询与目标文档的表述方式差异较大(例如用隐喻提问、用专业术语查询通俗解释)时,检索精准度会受影响。此时,HyDE架构提供了一种新的解决思路。
3、 假设文档增强检索(HyDE):用“虚拟答案”搭桥
HyDE(Hypothetical Document Embeddings)针对“查询与文档语义不直接相似”的场景设计,核心逻辑是通过生成“假设答案”作为桥梁,提升检索相关性。其工作流程为:先根据用户查询生成一篇“假设性的答案文档”(无需真实准确,仅需贴合查询的语义方向),再将该假设文档转换为向量,用它替代原始查询向量进行检索,最终基于检索到的真实文档生成答案。
例如,用户问“夏天怎么给宠物降温”,假设答案可能包含“剪短毛发”“避免阳光直射”“使用宠物冰垫”等方向,系统再用这些方向检索真实文档中“宠物降温的科学方法”。
其流程可总结为:
用户查询 → LLM生成假设性答案 → 将假设答案向量化 → 检索向量库 → 真实结果注入提示 → LLM生成最终输出
这种架构的特点是绕过了查询与文档的直接语义匹配障碍,适用于表述隐晦、跨领域映射的查询场景——例如“如何解决笔记本电脑运行时异响的问题”(实际需要检索“风扇故障”“硬件松动”等间接相关文档)。
但HyDE的检索质量依赖于“假设答案”的生成合理性,若假设与真实知识偏差较大,可能导致检索结果失真。为进一步确保输出准确性,校正RAG引入了“结果验证”机制。
4、 校正RAG(Corrective RAG):给信息加一道“校验锁”
校正RAG的核心目标是提升检索结果的准确性与时效性,通过增加“验证与修正”环节弥补前序架构的缺陷。其工作流程在检索后增加了一道校验步骤:将初步检索到的文档与可信数据源(如权威数据库、实时网页搜索结果)进行比对,过滤错误信息、修正过时内容(例如2023年的税收政策文档,在2024年查询时会被标记并与最新政策比对),再将校验后的文档输入LLM生成答案。
其流程可总结为:
用户查询 → 嵌入检索 → 结果可信度分级 → 可信源比对(如Web Search API)→ 冲突修正 → 校正后结果注入LLM
这种架构的特点是强调“结果可信度”,适用于对信息准确性要求极高的场景——例如医疗诊断辅助(需验证药物禁忌与最新临床指南)、金融合规查询(需确认最新监管条款)、法律案例检索(需核对现行法律条文)等。
然而,校正RAG主要聚焦于信息的“真实性校验”,对文档中实体间的复杂关系(如“A公司的子公司与B公司的合作历史及股权关联”)处理能力有限。为捕捉这类结构化关系,图谱RAG架构被提出。
5、图谱RAG(Graph RAG):用知识图谱挖掘关系
图谱RAG通过将非结构化文本转换为知识图谱(由实体、关系、属性构成的结构化网络),增强LLM对复杂关系的推理能力。其工作流程为:检索文档后,先通过实体识别、关系抽取等技术将文本解析为“实体-关系”三元组(如“(北京)-(首都)-(中国)”“(人工智能)-(包含)-(机器学习)”),构建知识图谱;再将图谱与原始文本一同输入LLM,使模型能基于结构化关系进行逻辑推理。
其流程可总结为:
用户查询 → 嵌入检索向量库 → 检索结果输入图谱生成器 → 构建实体关系图 → 图结构注入提示词 → LLM推理输出
这种架构的特点是擅长处理多实体关联、层级关系类查询,适用于需要深度推理的场景——例如供应链溯源(“某零件的供应商的上游原料来源及合规证明”)、社交网络分析(“用户A与用户B的间接关联路径及互动历史”)等。
但图谱RAG更侧重结构化关系的挖掘,对于非结构化文本中的细节信息(如长段落描述的事件背景)利用不足。为兼顾两种数据形态,混合RAG将向量检索与图检索结合。
6、 混合RAG(Hybrid RAG):多维度检索融合
混合RAG的核心是整合稠密向量检索(适用于非结构化文本语义匹配)、图检索(适用于结构化关系查询)及关键词检索(如BM25,提升精确术语召回),形成统一的检索 pipeline。其工作流程为:对用户查询进行分析后,同时触发三种检索机制——用向量检索获取语义相关的文本片段,用图检索获取实体关联的结构化信息,用关键词检索确保不遗漏精确术语;再将三类结果融合,输入LLM生成综合答案。
例如,查询“某手机的电池容量和制造商背景”时,向量检索找电池容量的文本描述,图检索找制造商的子公司及合作关系,关键词检索确保“电池容量”这一术语不被遗漏。
其流程可总结为:
用户查询 → 并行向量检索、图检索与关键词检索 → 交叉编码器重排序 → Top-K结果注入提示 → LLM生成
这种架构的特点是兼顾“非结构化文本细节”与“结构化关系推理”,适用于需要多维度信息整合的场景——例如“分析某事件的背景(文本细节)及涉及机构的利益关系(图谱关系)”。
不过,混合RAG的检索策略是固定的,面对动态变化的复杂查询(如从简单事实查询升级为多步骤推理)时,灵活性不足。自适应RAG通过“动态决策”机制解决了这一问题。
7、自适应RAG(Adaptive RAG):按需调整检索策略
自适应RAG的核心能力是动态调整检索策略,根据查询复杂度自动选择“直接检索”或“多步推理”模式。其工作流程为:首先对用户查询进行意图分析(通过查询长度、术语数量、是否包含“分析”“原因”等推理词判断),若为简单事实查询(如“某城市的人口数量”),则直接调用向量检索;若为复杂查询(如“某城市近五年人口变化原因及未来趋势”),则将其分解为“人口数据收集”“变化因素分析”“趋势预测”等子步骤,分步检索并整合结果。
其流程可总结为:
用户查询 → 查询分析器(轻量级LLM分类)→ 简单查询直接检索向量库;复杂查询触发多步推理链 → 最终结果注入提示模板 → LLM生成
这种架构的特点是“按需分配资源”,在保证简单查询效率的同时,提升复杂查询的覆盖度与准确性,适用于用户需求多样化、查询复杂度不固定的场景——例如智能客服(既需回答“退货流程”这类简单问题,也需处理“分析产品多次故障的原因及解决方案”这类复杂问题)。
但自适应RAG的能力边界仍局限于预设的检索逻辑,面对需要调用外部工具(如API接口、数据库查询)或组合多种RAG技术的超复杂任务时,需要更主动的协调机制。智能体RAG由此成为进阶方向。
8、 智能体RAG(Agentic RAG):让RAG拥有“决策能力”
智能体RAG引入AI智能体(Agent)作为核心调度者,具备规划、推理、记忆能力,能自主协调多源检索与工具调用。其工作流程为:智能体接收用户查询后,先基于自身“短期记忆”(存储当前任务步骤)和“长期记忆”(存储历史成功策略)判断是否需要外部信息;若需要,则规划检索步骤(例如“先调用图谱RAG获取实体关系,再用混合RAG补充文本细节”),必要时调用外部工具(如实时天气API、股票数据接口);最后整合所有信息,生成最终答案。
例如,处理“生成某行业市场调研报告”任务时,智能体会调用“数据检索Agent”找行业数据,“分析Agent”做趋势预测,“生成Agent”整理报告,并根据历史经验调整各Agent的调用顺序。
其流程可总结为:
用户目标 → 主智能体拆解任务 → 协调多Agent(如搜索Agent/本地数据Agent)→ Agent调用工具链(ReAct/CoT)→ 结果聚合输出
这种架构的特点是“自主决策与执行”,能处理跨领域、多步骤、需工具协作的超复杂任务,适用于高端场景——例如科研辅助(“整合文献检索、数据计算、图表生成,完成某实验的分析报告”)、企业战略规划(“结合市场数据、政策解读、竞品分析,制定三年发展计划”)等。
9、总结:从“工具”到“助手”的演进
从基础版RAG到智能体RAG,8类架构的演进清晰展现了RAG技术从“解决基础信息匹配”到“支撑复杂智能任务”的升级路径。选择何种架构,需结合业务场景的核心需求综合判断:
- 简单事实查询、文本类数据为主:基础版RAG或多模态RAG;
- 表述隐晦、跨领域映射查询:HyDE;
- 高准确性要求(如医疗、金融):校正RAG;
- 复杂关系推理(如供应链、社交网络):图谱RAG;
- 多维度信息整合:混合RAG;
- 需求多样化、查询复杂度动态变化:自适应RAG;
- 超复杂任务、需工具协作:智能体RAG。
合理选择RAG架构,能让LLM在实际业务中更高效地发挥价值,避免“学错方向”导致的资源浪费。
10、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
11、为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。
12、大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
适用人群
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。
更多推荐
所有评论(0)