RAG综述-from native rag to agentic rag

1.朴素RAG1.朴素RAG朴素rag就是最传统的rag，流程如图，首先把文档输入embedding模型，然后存入向量数据库。然后当用户输入时候，User Query输入同一个embedding模型，然后去向量数据库做关键词向量相似度匹配（而不是语义匹配）,把最接近的Top-K拿出来作为prompt中的上下文去回答。朴素 RAG 系统为 “检索与生成整合” 提供了关键的概念验证，为更复杂的范式奠定

我会成为大佬的

949人浏览 · 2025-08-20 11:59:55

我会成为大佬的 · 2025-08-20 11:59:55 发布

1.朴素RAG

朴素rag就是最传统的rag，流程如图，首先把文档输入embedding模型，然后存入向量数据库。然后当用户输入时候，User Query输入同一个embedding模型，然后去向量数据库做关键词向量相似度匹配（而不是语义匹配）,把最接近的Top-K拿出来作为prompt中的上下文去回答。

好处：

朴素 RAG 系统为 “检索与生成整合” 提供了关键的概念验证，为更复杂的范式奠定了基础。

不足：

缺乏上下文感知（Lack of Contextual Awareness）：由于依赖词汇匹配而非语义理解，检索到的文档往往无法捕捉查询的语义细微差别。
输出碎片化（Fragmented Outputs）：缺少先进的预处理或上下文整合，常导致响应零散或过于笼统。
可扩展性问题（Scalability Issues）：基于关键词的检索技术在面对大规模数据集时表现不佳，难以识别最相关信息。

2.高级RAG

高级 RAG（Advanced RAG）系统针对朴素 RAG（Naïve RAG）的局限性进行改进，融入语义理解和增强的检索技术。

相比起朴素RAG，这个多了一个前检索处理和后检索处理以及索引构建：

前检索处理就是：对用户查询做 “预处理”，比如理解语义、拆分需求、补充背景，让后续检索更准（比如把 “AI 最新研究” 拆解成 “AI 领域、2025 年、研究论文、核心突破），也就是解决朴素 RAG 里 “用户查询语义模糊、需求拆分不清，导致检索跑偏” 的问题，把原始查询转化为 精准、结构化、易被检索系统理解 的 “高级查询”。具体流程：

语义解析：用自然语言处理（NLP）模型（比如 BERT 系列、大语言模型微调版），分析用户查询的 意图、实体、关系。把自然语言转化为 “机器能理解的语义结构”，为后续检索打基础。
查询改写：基于语义解析结果，用模板匹配、生成式模型（比如 GPT - 风格模型），把原始查询改写成 更清晰、更适配检索系统 的新查询。弥补自然语言的模糊性，让检索系统更精准抓取需求。
需求分析与拆分：遇到复杂查询（比如 “AI 如何改变医疗，从诊断到治疗的全流程” ），用 任务分解算法（比如基于大语言模型的思维链分解、传统 NLP 的依存句法分析），把一个大需求拆成多个子需求。让复杂需求变得 “可执行”，适配高级 RAG 的 “Iterative Retrieval（迭代检索）” 能力。
上下文注入：若系统有 “用户历史查询、领域常识库”，会把这些 额外上下文 注入到当前查询里，补充信息。提升查询的 “信息密度”，让检索结果更贴合真实需求。

后检索就是：对检索到的文档，做 “二次筛选、重排”—— 用神经模型（Neural models ）重新排序，优先保留 “语义最贴合、最有价值” 的文档（比如从 10 篇里再精选出 3 篇最核心的）。具体流程：

神经重排：用 神经重排模型（比如 Cross - Encoder、ColBERT、Sentence - BERT 微调版），同时输入 “用户查询 + 候选文档”，深度计算两者的 语义关联度、信息价值、上下文适配性，输出 “文档质量得分”，重新排序。模型会学习 “查询和文档的交互语义”（比如：文档是否回答了查询的核心问题？信息是否足够新颖 / 有价值？和用户历史需求是否贴合？）。然后按 “质量得分” 排序后的文档列表，通常保留 Top 5 - 20 篇（根据场景灵活调整） 进入下一步。解决 “检索环节只看语义匹配，不看内容质量” 的问题，过滤掉 “语义相关但价值低、过时、重复” 的文档。
内容过滤：基于 规则引擎 + 轻量级语义模型，对重排后的文档做 “合规性、相关性、质量” 检查，过滤掉不符合要求的内容。其中规则过滤就是查看元数据是否合格，比如时间，会议等。语义过滤就是用轻量级模型（比如 TinyBERT ），快速判断文档内容是否 真的回答了查询核心需求。去重处理就是用 文本去重算法（比如 SimHash ），识别并合并 “内容高度重复” 的文档片段，避免生成时冗余。通过这一步进一步筛掉 “元数据不符、语义跑偏、重复冗余” 的文档，让进入生成环节的内容更 “干净、精准”。
语义整合：用 文本摘要模型 + 逻辑推理模型，对过滤后的文档片段做 “信息整合、逻辑梳理、关键提取”，输出 结构化的优质内容（比如 “关键结论、支持证据、逻辑链条” ）。具体来说第一步信息抽取用命名实体识别（NER）、关系抽取（RE）模型，从文档里提取 核心实体、关键数据、因果关系。第二步逻辑梳理用大语言模型或图网络（Graph - based ）模型，梳理片段间的 逻辑关系（比如 “研究 A 验证了方法 X 的有效性，研究 B 在此基础上优化了模块 Y” ）。第三步摘要生成用摘要模型（比如 BART、T5 ），把零散片段整合成 简洁、连贯、有逻辑 的摘要（比如 “2025 年 AI 医疗诊断的三大突破：1. 模型 X 用自监督学习提升小样本诊断率...” ）。这一步解决 “文档片段零散、逻辑混乱，直接喂给大模型会生成 ‘东拼西凑、没有重点’ 响应” 的问题，为生成环节提供 结构化、有逻辑、高价值 的内容。

索引构建就是：解决朴素 RAG 里 “文档只是简单关键词索引，语义关联弱，检索时匹配不准” 的问题，把静态文档转化为 带语义、易检索、支持复杂匹配 的 “向量索引库”。具体手段：

密集向量编码：用 密集检索模型（比如 Dense Passage Retrieval，DPR；或者 Sentence - BERT ），把每篇文档（和文档片段）转化为 高维向量（可以理解为：用几百 / 几千个数字，代表文档的语义特征）。文档会被 分段处理（比如长论文切成 “研究背景、方法、结论” 等片段），再分别编码，这样能保留更细粒度的语义。编码模型会在 “领域数据” 上做微调（比如用医疗 AI 论文训练），让向量更贴合特定领域语义。作用就是让文档的 “语义信息” 能被量化、比较，后续检索时，用 “向量相似度” 替代 “关键词匹配”，大幅提升语义关联度。
向量数据库构建：把编码好的 “文档向量” 存入 向量数据库，并建立 “快速检索索引”。目的是让检索系统能 “快速、精准” 找到和用户查询向量 “语义最接近” 的文档，替代传统的 “关键词扫库”，效率和精度都更高。

关键特性对应解决朴素RAG的三个痛点：

密集向量搜索：把 “用户查询” 和 “文档” 都转成 “高维向量”，让计算机能理解 “语义相似度”—— 不再只看关键词，而是看 “语义是否真相关”（比如 “AI 进展” 和 “人工智能最新突破”，语义接近就会被匹配到），解决朴素 RAG “语义理解弱” 的问题。
上下文重排：用 “神经模型” 重新给检索到的文档排序，优先选 “最贴合上下文、最有价值” 的内容（比如用户问 “AI 医疗应用”，就把 “AI + 医疗” 的文档排前面，其他领域的往后放），解决朴素 RAG “检索结果质量差” 的问题。
迭代检索：支持 “多轮、跨文档” 的检索，遇到复杂需求（比如 “AI 如何改变医疗，从诊断到治疗的全流程” ），能 “先找诊断相关文档、再找治疗相关文档”，逐步推理、整合信息，解决朴素 RAG “处理复杂需求能力弱” 的问题。

优点：

适合 “对精度、语义理解要求高” 的场景，比如学术研究总结（快速从海量论文里找核心观点）、个性化推荐（精准匹配用户需求）。

缺点：

计算开销大：语义理解、多轮检索、神经模型重排，都需要大量计算资源，处理慢、成本高。
可扩展性有限：数据量特别大（比如百万级文档）、需求特别复杂（比如十轮以上的多步推理）时，系统容易 “卡壳”，不好扩展。

3.Modular RAG

模块化检索增强生成（Modular RAG）[20] 代表了检索增强生成（RAG）范式的最新演进，强调灵活性与可定制性。这类系统将检索和生成流程分解为独立、可复用的组件，支持针对特定领域进行优化，适配各类任务需求。图 5 展示了模块化架构，呈现混合检索策略、可组合的流程管线以及外部工具集成的特点。

模块化 RAG 的关键创新点包括：

混合检索策略（Hybrid Retrieval Strategies）：结合稀疏检索方法（如稀疏编码器 - BM25 ）与密集检索技术（如密集段落检索，Dense Passage Retrieval，DPR ），在处理不同类型查询时最大化精度。（search模块实现）
工具集成（Tool Integration）：纳入外部 API、数据库或计算工具，以处理专业任务，如实时数据分析或特定领域的计算需求。（search或者predict模块）
可组合流程管线（Composable Pipelines）：模块化 RAG 支持检索器、生成器及其他组件独立替换、增强或重新配置，可高度适配具体应用场景。

主要是这个图怎么理解，分上下两部分，上部分是全部包含的可复用的模块，下部分是“模板”。我们一个一个介绍。

上部分模块层：

Memory（记忆）：存储历史交互、上下文信息，让系统 “记住过去”，支持多轮对话、复杂任务的连贯性（比如记住用户之前提的 “金融分析需求”，后续流程自动适配）。
Fusion（融合）：把不同来源的信息（比如稀疏检索结果 + 密集检索结果）做 “语义融合”，输出更全面的内容。
Predict（预测）：基于现有信息，预测 “下一步该检索什么、生成什么”，让流程更智能。
Search（搜索）：对接外部检索工具（比如混合检索策略里的稀疏 / 密集检索），获取信息。
Demonstrate（演示 / 示例）：生成 “示例内容”，辅助大模型理解任务（比如给金融分析任务，生成 “过往成功预测案例” 当参考）。
Routing（路由）：决定 “哪个模块该被调用、信息该往哪流”，像交通枢纽一样调度流程。
RAG（基础 RAG 流程）：包含最核心的 “Retrieve（检索）、Re - rank（重排）、Read（读取 / 理解）、Re - write（改写）” 环节，是模块化的基础单元。

这些东西并不是说全部要用完，只是说有这么写个模块。

下部分模板层：

第一个模式：Retrieve → Read（检索→读取）：最简单的流程，适合基础查询（比如 “查某篇论文的结论” ）。
第二个模式：Re - write → Retrieve → Re - rank → Read（改写→检索→重排→读取）：先改写查询让检索更准，重排筛选优质内容，再读取生成，适合复杂需求（比如 “金融分析需要先精准改写需求，再混合检索、重排数据” ）。
其他模式同理：通过不同模块的 “串联 / 并联”，覆盖 “多轮推理、跨工具协作、领域定制” 等场景。

价值：

解耦：把传统 RAG 的 “线性流程” 拆成独立模块（如检索、生成、融合、路由），每个模块专注一个功能，方便单独优化（比如替换更先进的检索模块，不影响生成环节）。
复用：预定义 “模式（Patterns）” 作为流程模板，不同任务可直接复用（比如金融分析和医疗诊断，都能基于现有模式调整模块，快速搭建系统）。

优势：

灵活定制：不同领域（金融、医疗）可根据需求，用模块 “搭积木”，快速定制专属 RAG 系统。
可扩展性：模块独立升级（比如换更先进的检索模型），不影响整体流程，系统能持续进化。
适配复杂任务：多模块协作 + 预定义模式，能处理 “多步骤、跨领域、需工具辅助” 的复杂任务（比如金融分析需要实时数据 + 历史分析 + 生成投资建议）。

对比其他：

对比朴素 RAG：朴素版是 “固定流程、难扩展”，模块化版是 “解耦模块、灵活组合”，能处理更复杂需求。
对比高级 RAG：高级 RAG 聚焦 “语义增强、检索优化”，模块化 RAG 更强调 “架构解耦、流程定制”，前者优化单点能力，后者重构系统灵活性。

4.图RAG

图结构检索增强生成（Graph RAG）[16] 通过整合基于图的数据结构，扩展了传统的检索增强生成系统，正如图 6 所示。这类系统利用图数据中的关系和层次结构，增强多跳推理能力和上下文丰富度。借助基于图的检索，Graph RAG 能够生成更丰富、更准确的内容，尤其适用于需要理解关系的任务。

Graph RAG 具有以下特点：

节点连接性（Node Connectivity）：捕捉实体之间的关系并基于这些关系进行推理。
分层知识管理（Hierarchical Knowledge Management）：通过基于图的层次结构，处理结构化和非结构化数据。
上下文丰富化（Context Enrichment）：利用基于图的路径，增加对关系的理解。

然而，Graph RAG 存在一些局限性：

可扩展性有限（Limited Scalability）：对图结构的依赖会限制可扩展性，在处理大规模数据源时尤为明显。
数据依赖性（Data Dependency）：高质量的图数据是生成有意义输出的关键，这限制了其在非结构化或标注不佳的数据集上的应用。
集成复杂性（Complexity of Integration）：将图数据与非结构化检索系统集成，会增加设计和实施的复杂性。

Graph RAG 非常适合医疗诊断、法律研究等应用场景，以及其他需要对结构化关系进行推理的领域。关于图的解释：

用户提问（User → Question）：
- 用户输入问题（比如 “哪些基因会导致某遗传病？” ），触发整个流程。
图抽取（Question → Graph Extraction）：
- 系统用 图抽取技术（比如命名实体识别 + 关系抽取模型），从用户问题里提取 “实体” 和 “关系需求”：
  - 实体：比如问题里的 “基因”“遗传病”；
  - 关系需求：比如 “导致” 这种关联关系。
- 作用：把自然语言问题，转化为 “图结构能理解的查询需求”，为后续检索打基础。
检索（Graph Extraction → Retrieval）：
- 检索环节对接两个核心数据源：
  - Knowledge Graph（知识图谱）：存储 “实体 + 关系” 的结构化数据（比如已知的 “基因 A → 导致 → 遗传病 B” 关联）。
  - Vector Database（向量数据库）：存储非结构化数据的向量（比如医学论文片段的语义向量）。
- 系统会结合 “图抽取得到的实体 / 关系需求”，在这两个数据源里 联合检索：
  - 知识图谱找 “结构化的关联关系”（比如直接查 “基因 A 和遗传病 B 的关系” ）；
  - 向量数据库找 “语义相关的非结构化内容”（比如和 “基因导致遗传病机制” 相关的论文片段）。
获取检索内容（Retrieval → Retrieved Content）：
- 把知识图谱和向量数据库的检索结果，整合成 Retrieved Content（检索到的内容），包含：
  - 知识图谱里的 “实体关系”（比如基因 A 导致遗传病 B 的证据链）；
  - 向量数据库里的 “语义相关文本”（比如具体的研究方法、实验数据）。
提示增强与生成（Retrieved Content → Prompt Augmentation + Question Context → Answer）：
- Question Context（问题上下文）：包含原始问题、图抽取得到的实体 / 关系需求，是生成的基础。
- Prompt Augmentation（提示增强）：把 “Retrieved Content + Question Context” 整合成 Prompt（提示），喂给大语言模型（LLM ）。
- 大语言模型结合 “Prompt 里的关系知识、语义内容”，生成 Answer（回答）（比如详细解释 “基因 A 如何导致遗传病 B，参考了哪些研究” ），反馈给用户。

5.Agentic RAG

智能体检索增强生成（Agentic RAG）通过引入具备动态决策和工作流优化能力的自主智能体，实现了范式转变。与静态系统不同，Agentic RAG 采用迭代优化和自适应检索策略，以应对复杂、实时且跨领域的查询。该范式在利用检索与生成流程模块化特点的同时，引入基于智能体的自主性。

关键特征

自主决策（Autonomous Decision-Making）：智能体可根据查询复杂度，独立评估并管理检索策略。
迭代优化（Iterative Refinement）：融入反馈循环，提升检索准确性和响应相关性。
工作流优化（Workflow Optimization）：动态编排任务，保障实时应用场景下的效率。

挑战

协调复杂性（Coordination Complexity）：管理智能体间的交互，需复杂的编排机制。
计算开销（Computational Overhead）：多智能体的使用，增加了复杂工作流的资源需求。
可扩展性局限（Scalability Limitations）：虽具备可扩展性，但系统的动态特性在高查询量场景下，仍会对计算资源造成压力。

适用领域

智能体 RAG 在客户支持、金融分析、自适应学习平台等领域表现卓越 —— 这些场景对动态适应性和上下文精准度要求极高。

附图：不同RAG特征和优势（AI翻译版）

——————————————————————————————————————————

从传统RAG到Agentic RAG

传统检索增强生成（RAG）系统通过整合实时数据检索，显著拓展了大语言模型（LLMs）的能力。然而，这些系统在复杂现实应用中仍面临关键挑战，阻碍其有效性。最突出的局限集中在上下文整合、多步推理以及可扩展性与延迟问题。

上下文整合

即便 RAG 系统成功检索到相关信息，也往往难以将其无缝融入生成的响应中。检索流程的静态性和有限的上下文感知能力，会导致输出碎片化、不一致或过于笼统。

示例：对于像 “阿尔茨海默病研究的最新进展及其对早期治疗的意义是什么？” 这样的查询，系统可能会获取相关研究论文和医疗指南。但传统 RAG 系统通常无法将这些发现整合为连贯的解释，把新疗法与特定患者场景关联起来。类似地，对于 “干旱地区小规模农业的最佳可持续实践有哪些？” 这类查询，传统系统可能检索到通用农业方法的文档，却忽略针对干旱环境定制的关键可持续实践。

多步推理

许多现实世界的查询需要迭代或多跳推理 —— 需跨多个步骤检索和整合信息。传统 RAG 系统往往无法根据中间见解或用户反馈优化检索，导致响应不完整或零散。

示例：复杂查询如 “欧洲可再生能源政策的哪些经验可应用于发展中国家，潜在经济影响是什么？” 需要整合多种信息，包括政策数据、发展中地区的背景信息以及经济分析。传统 RAG 系统通常无法将这些分散元素整合为连贯响应。

可扩展性与延迟问题

随着外部数据源体量增长，查询和排序大型数据集的计算成本急剧上升，导致显著延迟，削弱系统在实时应用中及时响应的能力。

示例：在金融分析、实时客户支持等对时间敏感的场景中，查询多个数据库或处理大型文档集造成的延迟，会降低系统整体实用性。例如，高频交易中检索市场趋势的延迟，可能导致错失机会。

HOWEVER传统检索增强生成（RAG）系统因工作流静态、适应性有限，往往难以处理动态、多步推理及复杂现实任务。这些局限推动了智能体智能的整合，催生了智能体检索增强生成（Agentic RAG）。

智能体检索增强生成纳入具备动态决策、迭代推理及自适应检索策略的自主智能体，在继承早期范式模块化特性的同时，克服其固有约束。这一演进让更复杂的多领域任务能以更高精度、更优上下文理解被处理，使智能体检索增强生成成为下一代人工智能应用的基石。具体而言，智能体检索增强生成系统通过优化工作流降低延迟，迭代优化输出，攻克长期阻碍传统 RAG 可扩展性与有效性的难题。

——————————————————————————————————————————

智能体智能和智能体检索增强

前者是后者的基础，本质上，一个人工智能智能体由以下部分构成（见图 7）：

大语言模型（LLM，明确角色与任务）：作为智能体的核心推理引擎和对话界面，负责解读用户查询、生成响应并保持内容连贯。
记忆（短期与长期）：捕捉交互过程中的上下文和相关数据。短期记忆 [22] 追踪即时对话状态，长期记忆 [22] 存储积累的知识和智能体经验。
规划（反思与自我批判）：通过反思、查询路由或自我批判 [23]，引导智能体的迭代推理过程，确保复杂任务能有效拆解 [24]。
工具（向量搜索、网页搜索、API 等）：突破智能体仅能进行文本生成的局限，使其能够访问外部资源、获取实时数据或执行专业计算。

反思Reflection

反思是智能体工作流中的一种基础设计模式，能让智能体迭代式地评估并优化自身输出。通过融入自我反馈机制，智能体可识别并解决错误、不一致问题及有改进空间的地方，在代码生成、文本创作和问答等任务中提升表现；在多智能体系统里，反思可涉及不同角色分工，比如一个智能体负责生成输出，另一个负责批判审视，以此促进协作式改进。

规划Planning

规划是智能体工作流中的关键设计模式，能让智能体自主将复杂任务分解为更小、可管理的子任务。在动态且不确定的场景中，这种能力对于多跳推理和迭代式问题解决至关重要。借助规划，智能体可动态确定达成更大目标所需的步骤序列。这种适应性让智能体能够处理无法预先定义的任务，确保决策具备灵活性。尽管规划功能强大，但与反思这类确定性工作流相比，其产出结果的可预测性较低。规划特别适用于需要动态适配的任务 —— 这类任务中，预定义工作流无法满足需求。随着技术成熟，其在各领域推动创新应用的潜力将持续增长。

ToolUse

工具使用能让智能体通过与外部工具、API 或计算资源交互，拓展自身能力。这种模式使智能体能够获取信息、执行计算并处理超出预训练知识的数据。通过将工具动态集成到工作流中，智能体可适配复杂任务，输出更准确、更贴合上下文的结果。现代智能体工作流会在各类应用中融入工具使用，涵盖信息检索、计算推理以及与外部系统交互。尽管工具使用大幅增强了智能体工作流，但在工具数量众多的场景中，优化工具选择仍是挑战。目前，已有借鉴检索增强生成（RAG）的技术被提出以解决该问题，比如基于启发式的选择方法。

多智能体（Multi - Agent）

多智能体协作是智能体工作流中的一种关键设计模式，能够实现任务专业化和并行处理。智能体之间会进行沟通并共享中间结果，确保整体工作流保持高效且连贯。通过将子任务分配给专门的智能体，这种模式提升了复杂工作流的可扩展性和适应性（以复杂工作流为例，多智能体系统允许开发者将复杂任务分解为更小、可管理的子任务，并分配给不同智能体。这种方法不仅能提升任务表现，还能为管理复杂交互提供一个稳健的框架。每个智能体都有自己的记忆和工作流，其中可包含工具使用、反思或规划，从而实现动态且协作式的问题解决）。

虽然多智能体协作蕴含巨大潜力，但与反思、工具使用等更成熟的工作流相比，它是一种可预测性较低的设计模式。

这些设计模式构成了智能体检索增强生成（Agentic RAG）系统成功的基础。通过构建工作流（从简单的顺序步骤，到更具适应性的协作流程），这些模式使系统能够动态调整检索和生成策略，以适配现实世界中多样且不断变化的需求。借助这些模式，智能体能够处理迭代式、具备上下文感知的任务 —— 这些任务的复杂度远超传统 RAG 系统的能力范围。

——————————————————————————————————————————

智能体工作流模式：动态协作的自适应策略

1.提示链：通过顺序处理提升准确性

提示链会把一项复杂任务分解成多个步骤，每个步骤都以前一个步骤为基础逐步推进。这种结构化的方法通过在推进前简化每个子任务，来提高准确性。不过，由于是按顺序处理，可能会增加延迟。

查询（Query）输入大语言模型（LLM）后，会经过一个 “Gate（判断门）”，由判断门决定后续走向：若判定为 “Yes（是）”，就进入下一个大语言模型（LLM）进行处理；若不满足继续推进的条件，则 “Exit（退出）” 流程；最终输出 “Response（响应）”

什么时候用：当一项任务能够被拆解成固定的子任务，且每个子任务都对最终输出有贡献时，这种工作流的效果最佳。在那些需要通过逐步推理来提升准确性的场景中，它尤其有用。

应用示例：①先用一种语言生成营销内容，之后将其翻译成另一种语言，同时保留语义细节。②结构化的文档创作流程：先生成大纲，验证大纲的完整性，接着再扩展成完整文本。

2.路由（Routing）：将输入导向专门流程

路由指对输入进行分类，再将其导向合适的专门提示或流程。这种方法确保不同查询或任务被分开处理，提升效率和响应质量。

查询（Query）先进入 “Router（路由器）” 进行分类，再被导向不同的大语言模型（LLM）处理，最终汇总输出响应（Response），体现按输入类型分流到专属流程的逻辑

什么时候用：适用于不同类型输入需要 distinct 处理策略的场景，确保各类别都能实现性能优化。

应用示例：①将客户服务查询分类，如导向技术支持、退款请求或常规咨询等类别。②把简单查询分配给小型模型以控制成本，复杂请求则交给先进模型处理。

3.并行化（Parallelization）：通过并发执行加速处理

并行化将任务拆分为独立流程同时运行，减少延迟、提升吞吐量。可分为 “分段（sectioning，独立子任务）” 和 “投票（voting，多输出保障准确性）” 两类。

什么时候用：适用于任务可独立执行以提升速度，或多输出能增强结果可信度的场景。

应用示例：

分段（Sectioning）：拆分内容审核类任务，一个模型筛查输入，另一个生成响应。
投票（Voting）：用多个模型交叉检查代码漏洞，或分析内容审核决策。

4.协调器 - 工作器：动态任务委派

这种工作流的特点是有一个中央协调器模型，它会动态地将任务拆分为子任务，把这些子任务分配给专门的工作器模型，然后汇总结果。与并行化不同，它能够适应不同的输入复杂度。

查询（Query）先进入 “Orchestrator（协调器）” 进行任务拆分，再分配给不同的大语言模型（LLM，即工作器）处理，处理结果进入 “Synthesizer（合成器）” 汇总，最终输出响应（Response），体现动态拆分、分工协作再聚合的逻辑

什么时候用：最适合需要动态分解任务和实时适应的场景，这类场景中子任务不是预先定义好的。

应用示例：

根据变更需求的性质，自动修改代码库中的多个文件。
通过从多个来源收集并整合相关信息，开展实时研究。

5.评估器 - 优化器：通过迭代优化输出

评估器 - 优化器工作流先生成初始输出，再基于评估模型的反馈对其进行优化，以此迭代提升内容质量。

查询（Query）进入 “Generator（生成器，大语言模型）” 产出初始结果（Solution），结果交给 “Evaluator（评估器，大语言模型）” 评判；若 “Accepted（通过）”，输出响应（Response）；若 “Rejected（未通过）”，则带着反馈（Feedback）返回生成器重新优化，体现迭代优化的闭环逻辑

什么时候用：当迭代优化能显著提升响应质量时效果显著，尤其适用于存在清晰评估标准的场景。

应用示例：

通过多轮评估和优化循环，改进文学翻译质量。
开展多轮研究查询，用额外迭代优化搜索结果。

——————————————————————————————————————————

智能体检索增强生成（Agentic RAG）系统的分类

智能体检索增强生成（Agentic RAG）系统可依据复杂度和设计原则，归类为不同架构框架，包括单智能体架构、多智能体系统和分层智能体架构。每种框架都针对特定挑战定制，为各类应用优化性能。本节将详细介绍这些架构的分类，突出其特点、优势与局限。

1.单智能体智能体检索增强生成：路由型（Single-Agent Agentic RAG: Router）

单智能体智能体检索增强生成[30] 是集中式决策系统，由单个智能体管理信息检索、路由和整合。这种架构通过将任务整合到统一智能体中简化系统，在工具或数据源数量有限的场景中尤为高效。

工作流程

查询提交与评估：流程始于用户提交查询。协调智能体（或主检索智能体）接收查询，分析后确定最适合的信息来源。
知识源选择：根据查询类型，协调智能体从多种检索选项中选择：
- 结构化数据库：若查询需访问表格数据，系统可能用 “文本转 SQL（Text-to-SQL）” 引擎，对接 PostgreSQL、MySQL 等数据库。
- 语义搜索：处理非结构化信息时，通过基于向量的检索，获取相关文档（如 PDF、书籍、机构记录）。
- 网页搜索：需实时或广泛上下文信息时，系统借助网页搜索工具访问最新在线数据。
- 推荐系统：处理个性化或上下文查询时，系统调用推荐引擎获取定制化建议。
数据整合与大语言模型（LLM）合成：从选定来源检索到相关数据后，传递给大语言模型。大语言模型整合信息，将多来源洞察融合为连贯、贴合上下文的响应。
输出生成：最终，系统生成全面、面向用户的答案，回应原始查询。响应以可操作、简洁的格式呈现，可选配所用来源的引用。

输入（Input）转化为查询（Query）和提示（Prompt），进入 “Retrieval Router Agent（检索路由智能体）”；智能体调用 “Tools（工具，如 Vector Search X/Y、Web Search ）”，对接 “Data Sources（数据源）” 获取信息；最终经大语言模型（LLM）处理，输出响应（Response），体现单智能体统筹检索、路由与生成的逻辑

特征与优势：

集中式简洁性，效率与资源优化，动态路由，工具适配多样性，适配简单系统。

2.多智能体智能体检索增强生成（RAG）系统

多智能体 RAG [30] 是单智能体架构的模块化、可扩展演进，通过利用多个专用智能体，设计用于处理复杂工作流和多样查询类型（如图 17 所示）。该系统不再依赖单个智能体管理所有任务（推理、检索、响应生成），而是将职责分配给多个智能体，每个智能体针对特定角色或数据源优化。

工作流程

查询提交：流程始于用户查询，由协调智能体或主检索智能体接收。该智能体作为中央协调器，根据查询需求将其委派给专用检索智能体。
专用检索智能体：查询在多个检索智能体间分配，每个智能体专注于特定类型的数据源或任务。示例包括：
- 智能体 1：处理结构化查询，如与 PostgreSQL 或 MySQL 等基于 SQL 的数据库交互。
- 智能体 2：管理语义搜索，从 PDF、书籍或内部记录等来源检索非结构化数据。
- 智能体 3：专注于从网页搜索或 API 检索实时公共信息。
- 智能体 4：专攻推荐系统，基于用户行为或资料提供上下文感知建议。
工具访问与数据检索：每个智能体将查询路由到其领域内的合适工具或数据源，例如：
- 向量搜索：用于语义相关性。
- 文本转 SQL：用于结构化数据。
- 网页搜索：用于实时公共信息。
- API：用于访问外部服务或专有系统。
  检索过程并行执行，可高效处理多样查询类型。
数据整合与大语言模型（LLM）合成：检索完成后，所有智能体的数据传递给大语言模型。大语言模型将检索到的信息合成为连贯、贴合上下文的响应，无缝整合多来源洞察。
输出生成：系统生成全面响应，以可操作、简洁的格式返回给用户。

输入（Input）转化为查询（Query）和提示（Prompt），进入 “Retrieval Router Agent（检索路由智能体）”；智能体将查询分配给 “Retrieval Agent X/Y/Z（检索智能体 X/Y/Z ）”；这些智能体调用 “Tools（工具，如 Vector Search X/Y、Web Search、MAIL、CHAT ）”，对接 “Data Sources（数据源）” 获取信息；最终经大语言模型（LLM）处理，输出响应（Response），体现多智能体分工协作检索的逻辑

关键特征与优势