2025年必学:RAG技术从入门到精通,GraphRAG到多模态智能体全解析(建议收藏)
2025年必学:RAG技术从入门到精通,GraphRAG到多模态智能体全解析(建议收藏)
RAG技术正经历从传统文本检索向多模态智能推理的深刻变革。GraphRAG实现结构化知识表示,Reasoning RAG引入思维链推理,Agentic RAG与智能体技术融合,而多模态RAG则扩展至图像、视频等多元数据。ViDoRAG通过多智能体协作处理视觉文档,VRAG-RL利用强化学习优化决策流程。这些创新已在医疗等领域展现价值,解决了LLM知识局限与幻觉问题,标志着RAG技术从简单信息检索向复杂推理能力的转变。
1、概述
检索增强生成(Retrieval-Augmented Generation, RAG)技术自问世以来,已成为解决大型语言模型(LLM)知识局限性与“幻觉”问题的核心框架。进入2025年,RAG技术正经历一场深刻的范式革命。
- GraphRAG代表了RAG技术向结构化知识表示的重要转变,结构化知识推理的突破。与传统的文档级检索不同,GraphRAG构建了细粒度的知识图谱,实现了实体级别的关系推理。
- Reasoning RAG思维链与多步推理,推理型RAG标志着系统从简单的信息检索向复杂推理能力的转变。这一阶段的核心特征是引入了思维链(Chain of Thought, CoT)推理机制。
- Agentic RAG代表了RAG技术的最新发展方向,将检索增强生成与自主智能体技术深度融合,构建了具备自主决策和行动能力的知识系统。这一阶段的核心突破在于从被动响应转向主动推理,从单一检索转向多智能体协作。
简单的“检索-生成”模式已不足以应对日益复杂的现实世界信息需求。多模态RAG(Multimodal RAG)不仅是这一演进方向的必然产物,其技术与应用生态已然成熟,正在全球范围内释放巨大的产业价值。
2、从文本到多模态
传统的RAG框架主要处理纯文本数据,通过从外部知识库中检索相关文本片段来增强LLM的回答,这在很大程度上提升了信息生成的准确性和时效性。然而,现实世界的信息是多模态的。图表、图像、视频、音频等非文本数据承载着远比文本更丰富、更直观的信息。因此,RAG技术向多模态的演进,是其发展的必然。
多模态RAG(M-RAG)将传统RAG的能力从单一的文本域扩展至包含图像、视频、表格等多种数据模态的广阔领域 。这一扩展并非简单的拼接,而是需要在三个核心层面实现技术突破:
- 跨模态表示(Cross-modal Representation): 如何将不同模态的数据(如图像的像素信息和文本的语义信息)映射到一个统一的、可供模型理解的向量空间中,是实现有效检索的第一步。
- 跨模态检索(Cross-modal Retrieval): 系统需要能够理解跨模态的查询,例如用一张图片去检索相关的说明文档,或用一段描述性文字去查找符合条件的视频片段。
- 多模态融合与生成(Multimodal Fusion and Generation): 在生成阶段,模型需要能无缝地整合、理解并推理从不同模态检索到的信息,最终生成连贯、准确的答案 。
下一代RAG系统正在从一个线性的信息处理流水线,演变为一个具备动态、迭代、自优化能力的智能系统。两篇来自阿里巴巴通义实验室的论文,ViDoRAG (arXiv:2502.18017) 和 VRAG-RL (arXiv:2505.22019),集中体现了这一趋势。
3、动态迭代与多智能体协作
传统RAG在处理信息结构复杂、内容交错的视觉丰富文档(如报告、PPT、教科书)时,常常因一次性检索无法精准定位信息或生成阶段推理能力不足而失败 。为了解决这一难题, 《ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents》(arXiv:2502.18017) 提出了一套革命性的多智能体协作框架 。
ViDoRAG的核心思想是将复杂的推理任务分解,通过不同角色的智能体(Agent)进行迭代式的探索与验证,模拟人类专家的工作流。其关键创新包括:
- 多智能体协作机制: 框架内包含多个智能体,如负责初步信息筛选的“探索者”(Seeker)、负责审查和验证信息的“检查员”(Inspector)以及负责整合信息并生成最终答案的“回答者”(Answer)。它们通过一个“探索-总结-反思”(Explore, Summarize, and Reflect)的迭代循环进行协作,不断修正和深化对问题的理解 。
- 高效多模态检索策略: 针对视觉文档的复杂性,ViDoRAG采用基于高斯混合模型(GMM)的混合检索策略,能够更有效地整合文本和视觉布局特征,提高检索的精准度 。
- 引入全新评测基准: 为了验证框架的有效性,研究团队还构建并开源了ViDoSeek数据集,这是一个专门用于评测视觉文档复杂推理能力的基准,涵盖了文本、图表、表格等多种内容类型,要求模型具备跨文档的推理和整合能力 。
4、多模态混合检索
ViDoRAG中的多模态混合检索是一种结合文本和视觉信息来提升检索效果的方法,旨在克服传统检索方法在处理视觉丰富的文档时,难以有效整合文本和视觉特征的局限性。具体流程如下:
- 文本和视觉(双检索)管道:首先通过文本和视觉两种不同的管道来检索信息。
- 视觉管道:文档页面被视为图像。(一个文档页面看作一个
- 文本管道:文档页面通过 OCR 识别出的文本块。
- 基于高斯混合模型(GMM)的自适应召回:为了动态地确定最佳的 top-K 值(即检索结果的数量),采用了 GMM。
- 相似度量化:GMM 通过相似度来量化查询和文档集合之间的相关性。相似度是查询嵌入和页面嵌入之间余弦相似度。
- 动态 K 值确定:GMM 用于自动确定每种模态(文本或视觉)的最佳 K 值,而无需手动调整。GMM 假设相似度分数服从双峰分布,并使用期望最大化(EM)算法来估计每个模态的先验概率,从而动态调整 K 值。
- 文本和视觉混合检索:在分别通过文本和视觉管道检索到信息后,ViDoRAG 将这些结果整合起来。
- 融合操作:通过联合操作将文本和视觉检索结果合并。
- 排序:合并后的结果根据其原始序列进行排序,因为连续的页面通常具有相关性。
通过这种方法,充分利用了文本和视觉特征,从而提高检索的准确性和效率。同时,自适应召回确保了检索结果的简洁性,并优化了性能。
5、多智能体协作推理
多智能体协作推理是一种模仿人类专家团队协作解决问题的方法,旨在提升视觉丰富文档的生成质量和推理能力。该框架包含三个核心智能体:搜索Agent、检查Agent和答案Agent,以及一个迭代推理过程。
- 搜索Agent (Seeker Agent):负责从大量的图像中快速筛选出与查询相关的图像。
- 该智能体会根据查询和检查Agent的反馈,提取全局线索,缩小搜索范围。
- 搜索Agent通过改进的 ReAct 范式进行记忆管理,持续更新和维护上下文信息。
- 通过迭代的方式,不断从候选图像中选择最相关的图像,直到检查Agent认为信息足够或没有更多相关图像为止。
- 检查Agent (Inspector Agent):对搜索Agent选择的图像进行细粒度的检查和反思,以确保信息的准确性和相关性。
- 检查Agent会审查高分辨率图像,并决定是提供反馈指导搜索Agent,还是起草初步答案。
- 该智能体的主要任务是识别和过滤掉干扰信息,从而提高生成模型的鲁棒性。
- 答案Agent (Answer Agent):综合搜索Agent和检查Agent的信息,生成最终答案。
- 答案Agent会验证检查Agent的草拟答案的一致性,确保答案的准确性和全面性。
- 该智能体会利用草拟答案作为先验知识,从粗到精地细化响应,从而提高最终答案的质量。
总的来说,ViDoRAG 的多智能体协作推理框架通过模拟人类专家团队的协作方式,实现了更高效和准确的视觉丰富文档理解和生成。其迭代推理过程具有以下优势:。
- 持续互动:搜索Agent和检查Agent之间进行持续互动,通过迭代的方式逐步完善答案。
- 信息反馈:检查Agent会根据图像内容和查询需求,向搜索Agent提供反馈,指导其更好地选择图像。
- 一致性验证:答案Agent会对检查Agent的答案进行一致性验证,确保最终答案的准确性和可靠性。
6、强化学习赋能
如果说ViDoRAG通过“流程再造”提升了RAG的推理能力,那么 《VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning》(arXiv:2505.22019) 则通过引入“学习机制”,让RAG系统学会了如何做出更优的决策 。
该研究的核心洞见在于,RAG的整个过程:从检索什么、检索多少到如何整合生成——本质上是一个序列决策问题。为此,VRAG-RL框架创新性地引入了强化学习(Reinforcement Learning, RL)来端到端地优化整个流程 。其最突出的贡献在于设计了一套精巧的奖励函数(Reward Function),用于指导模型的学习方向:
- 模式一致性奖励(Pattern Reward): 鼓励模型遵循高效、合理的推理模式,避免无效或冗余的操作。
- 检索效率奖励(Retrieval Efficiency Reward): 基于NDCG(归一化折扣累积增益)等指标,奖励那些能够快速、准确且全面地检索到关键信息的行为,强调检索质量。
- 模型输出奖励(Model-Based Outcome Reward): 利用一个独立的评估模型来判断最终生成答案的质量,为模型的学习提供一个稳定且灵活的“最终目标”信号。
7、思考-行动-观察的闭环
VRAG-RL的整个工作流程主要由两部分构成:
- Rollout模块:这是智能体与环境交互的舞台。给定一个用户问题,智能体(Policy Model)开始生成它的思考轨迹。例如,它可能会先生成我需要查找关于…的数据,然后执行一个动作…。
- Update模块:在收集了一系列交互轨迹后,系统会使用这些数据来更新策略模型。这里采用了GRPO(Group Relative Policy Optimization)算法,它通过比较一组(group)不同尝试的结果,来稳定地优化模型,使其学会在下一次遇到类似问题时做出更好的决策。
8、视觉感知动作
当模型决定使用视觉感知动作时,它会生成类似[x1, y1, x2, y2]的指令。这里的坐标是模型在其内部表示空间中理解的位置。系统后台会执行一个关键的映射和处理步骤,如下面公式所示:
这个公式看起来复杂,但原理很简单:
- Iraw是原始的高分辨率图片。
- (Wraw,hraw)是原始图片的分辨率。
- (Wencoder,hencoder)是VLM视觉编码器能处理的较低分辨率。
- 模型给出的坐标[Xmin,ymin,Xmax,ymax]是基于低分辨率图的。
- 公式的核心就是将低分辨率图上的坐标按比例放大,映射回高分辨率的原图,然后从原图上精确裁剪出R这块区域。
- 最后,这块高清的裁剪区域R会被重新编码并作为新的观察信息,输入给模型进行下一步的精细推理。
这个简单的“裁剪并重新输入”(crop and re-input)策略,是提升视觉感知分辨率的“法宝”,它直接解决了VLM因输入尺寸限制而无法看清细节的根本问题。
9、精细化奖励函数
- 检索效率奖励
这个奖励借鉴了信息检索领域的经典指标 nDCG (Normalized Discounted Cumulative Gain)。它的核心思想是:越早检索到相关的文档,奖励越高。
-
其中,D是检索到的图像序列,Si 是第 i 个图像的相关性得分(相关为1,不相关为0),i 是图像在序列中的位置。分母Log2(i+1)是一个惩罚项,位置越靠后(i越大),惩罚越重。
-
IDCG(IdealDCG)代表了理想情况下的最高得分,即所有相关文档都在不相关文档之前被检索出来。
-
最终的检索奖励就是两者的比值:
这个值介于0和1之间,完美地量化了检索过程的效率。
- 模式与结果奖励
-
r_Pat 比较简单,它通过规则检查模型是否正确使用了 , 等标签。
-
r_Ans 则更智能。它不再要求模型的答案与标准答案一字不差。而是将问题、模型生成的答案、标准答案三者一起交给一个强大的“裁判”模型(如Qwen2.5-7B-Instruct),由它来判断模型答案的正确性。这种基于模型的评估方式更加贴近人类的判断,也更能容忍表达方式上的差异。
- 综合奖励
最终的奖励是这三者的加权和:
通过调整权重α,β,γ,研究者可以精细地控制模型的学习重点,例如在初期更注重学习正确的交互模式(调高γ),在后期则更注重结果和效率。
10、自动化放射学报告生成与辅助诊断
理论的突破最终要通过实践来检验。截至2025年,多模态RAG已不再是实验室里的原型,而是广泛部署于关键行业的成熟解决方案,其应用效果可以通过明确的性能指标来衡量。
医疗领域数据模态极为丰富,包含电子病历(文本)、CT/MRI影像(图像)、基因序列(结构化数据)等。多模态RAG在此展现出巨大的应用价值。一个典型的应用是,系统接收患者的CT扫描图像和电子病历,通过多模态RAG,不仅能准确识别影像中的异常(如早期肺癌结节),还能结合病历中的既往史、实验室检查结果,自动生成一份准确、全面的放射学报告 。这极大地减轻了放射科医生的工作负担,并提高了诊断的一致性和准确性。
性能指标:
- 准确性(F1分数): 在2025年发表的一项研究中,一种用于生成放射学报告的事实感知多模态RAG方法,在语言生成和放射学特定指标的F1分数上分别实现了6.5%和2%的显著提升。
- 响应时间: 对于临床辅助诊断系统,响应速度至关重要。已有公开的多模态问答系统展示了在处理复杂文档时,能够实现1.8秒的快速响应时间,同时在F1、BLEU等指标上优于基线模型证明了其临床应用的可行性。
11、结论
RAG技术正经历着从第一代“文本检索-生成”到下一代“多模态-智能推理”的深刻变革。以ViDoRAG和VRAG-RL为代表的前沿研究,揭示了下一代RAG技术的核心特征,即通过迭代推理、多智能体协作和强化学习等机制,实现对复杂多模态信息的深度理解和最优决策。
更为重要的是,这场技术革命并非空中楼阁。多模态RAG在医疗健康和智能制造等关键领域的成功应用,及其可量化的性能指标,充分证明了其技术和应用的成熟度。可以说,多模态RAG已经不是未来的愿景,而是正在重塑产业格局的现实力量。
同时多模态RAG的未来发展仍面临挑战与机遇:
- 效率与成本: 更复杂的模型和推理流程带来了更高的计算成本和延迟,如何进行模型压缩、推理优化,是规模化部署的关键。
- 模态扩展与对齐: 未来的RAG系统将需要处理更广泛的模态,如3D模型、传感器流、生物信号等,如何实现这些模态的精准对齐与深度融合,将是持续的研究热点。
- 评估体系的完善: 随着系统能力的增强,需要建立更加全面、鲁棒且标准化的评估基准和方法,以科学地衡量其在真实世界中的推理、决策和抗干扰能力。
12、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
以上全套大模型资料如何领取?
更多推荐
所有评论(0)