RAG+是西安交通大学联合华为等机构提出的新型检索增强生成框架,通过引入"应用感知推理"机制,为传统RAG系统添加了"应用语料库",形成"知识+应用"的双语料库结构。推理时同时检索相关知识点和应用示例,使模型不仅"搜到知识",更能"用好知识"。实验表明,在数学、法律、医学三大领域,RAG+实现了3%-5%的平均性能提升,峰值增益高达13.5%,有效解决了传统RAG"懂知识,不会用"的痛点。


在大模型时代,检索增强生成(RAG)早已成为解决知识密集型任务的标配——它就像给模型配了个“外挂知识库”,能动态抓取最新信息,大幅提升回答的准确性。但用过的人都懂,传统RAG总有点“水土不服”:明明检索到了正确的知识点,模型却不知道怎么用在具体任务里,尤其在数学、法律、医学这些需要复杂推理的领域,常常栽跟头。

西安交通大学联合华为等机构发表在2025 EMNLP上的RAG+框架,恰恰戳中了这个痛点。它通过引入“应用感知推理”,让模型不仅能搜到知识”,更能用好知识”,在三大领域实现3%-5%的平均性能提升,峰值增益高达13.5%。下面来详细了解这个让RAG“脱胎换骨”的新方案~

论文地址:https://aclanthology.org/2025.emnlp-main.1630.pdf

01

传统RAG的“致命短板”:

懂知识,不会用

传统RAG的核心逻辑很简单:先根据用户查询检索相关知识,再把知识喂给模型生成答案。但这个流程存在一个关键漏洞——只关注“检索到什么”,却忽略了“怎么用”。

比如解决数学题“从6名男生4名女生中选3人,至少1名女生有多少种选法”,传统RAG能轻松检索到组合公式C(n,k)=n!/(k!(n−k)!),却会直接算出C(10,3)=120的错误答案。问题就出在它不知道“至少1名女生”需要用“总情况减全男生情况”的解题逻辑——这正是传统RAG缺失的“应用能力”。

从认知科学角度看,布鲁姆认知层次理论早就指出,“应用知识”是超越“记忆知识”的独立技能;而ACT-R认知架构也强调,事实知识(是什么)和程序性知识(怎么用)结合才能高效完成复杂任务。传统RAG只聚焦前者,自然在推理任务中力不从心。

现有改进方案也没能解决根本问题:有的微调检索器让知识更贴合生成需求,有的把任务拆分成子步骤逐个检索,但都没提供明确的“知识应用指南”,模型还是得自己摸索怎么用检索到的内容。

02

RAG+的核心创新:

给知识配“使用说明书”

RAG+的解决方案其实很直观:既然模型不会用知识,那就直接给每个知识点配上“应用示例”,让模型照着学、跟着用。它在传统RAG基础上增加了一个“应用语料库”,形成“知识+应用”的双语料库结构,整个框架分为两大阶段。

构建阶段:给每个知识点找“应用搭档”

这个阶段的核心是打造一个与知识语料库K对齐的应用语料库A,对于每个知识项 k∈K ,会检索或生成一个应用示例 a∈A 来展示 k 的实际用途。简单说就是给每个知识点配好“使用说明书”。针对不同领域的数据情况,RAG+设计了两种构建策略:

  • 用生成:如果某个领域缺乏现成的应用案例(比如法律、医学),就用大模型自动生成。首先把知识分为两类:

    概念性知识:包括静态的描述性信息,如定义、理论解释或实体和原理的描述。相应的应用通常涉及理解任务、上下文解释或类比,以阐明含义并加深理解。

    程序性知识:动态的、可操作的信息,包括解决问题的策略、推理规则和分步方法。比如用具体例题展示贝叶斯定理的计算步骤。

  • 用匹配:如果有现成的真实案例(比如数学题库),就通过“类别对齐+相关性选择”,把知识点和真实应用案例配对,再人工优化确保准确性。对于没有匹配案例的少数知识点(不足10%),用自动生成的示例补充。

通过这两种策略,每个知识点都能找到对应的应用示例,形成“知识-应用”成对数据,为后续推理打下基础。

推理阶段:知识和应用“双检索”

推理时,RAG+会同时做两件事:

  1. 根据用户查询检索相关知识点(和传统RAG一样);
  2. 自动调取这些知识点对应的应用示例;
  3. 把“知识点+应用示例”一起塞进提示词,让模型既能参考事实,又能模仿应用逻辑。

关键是,RAG+是模块化设计,不用修改模型架构,也不用额外微调,直接就能集成到任何现有RAG pipeline里,真正实现“即插即用”。

03

实验结果:

三大领域全面碾压传统RAG

研究团队在数学、法律、医学三个推理密集型领域做了全面测试,对比了传统RAG、Answer-First RAG、GraphRAG、Rerank RAG等主流方案,覆盖Qwen、LLaMA、DeepSeek、ChatGLM四大系列9个模型,结果相当亮眼。

数学领域:小模型也能逆袭

数学任务的核心挑战是“将抽象公式转化为步骤化解题逻辑”,实验结果清晰证明:RAG+通过补充应用示例,能有效解决传统RAG“知公式、不会用”的问题。

  1. 几乎所有RAG+变体均优于非增强版本:无论是小模型还是大模型,加入应用增强后性能均有提升:小模型DS-Qwen-7B用GraphRAG+时准确率较GraphRAG提升6.5%,用Rerank RAG+时较Rerank RAG提升6.0%;中模型Qwen2.5-14B在Rerank RAG+配置下表现最优,准确率较Rerank RAG提升超7.5%;大模型Qwen2.5-72B在RAG+、AFRAG+配置下,准确率分别较基础RAG、AFRAG提升3.25%、4.19%,虽增幅小于中小模型,但胜在稳定。
  2. 传统GraphRAG在数学领域“水土不服”,应用增强可修复:GraphRAG因侧重“实体关系检索”(如“多项式”与“插值”的关联),与数学任务“需要步骤化计算”的需求不匹配,导致部分大模型性能下降(如Qwen2.5-72B用GraphRAG时准确率略低于普通RAG)。但加入应用示例后(GraphRAG+),模型能通过示例学到“如何用实体关系解题”,Qwen2.5-7B、Qwen2.5-14B的准确率分别较GraphRAG提升2.79%、0.7%。
  3. **推理复杂度越高,RAG+增益越显著:**简单数学题(如基础组合计算)中,RAG+提升约0.7%-2.5%;复杂题(如多项式插值、积分计算)中,提升幅度可达5%-7.5%。这表明:当任务需要“知识应用”而非“知识回忆”时,RAG+的价值更突出。

法律领域:量刑推理更精准,大模型增益最显著

  1. 模型突破性能天花板:Qwen2.5-72B用Rerank RAG+时准确率达87.5%,较非增强版本(77.5%)提升10%,是所有领域中单一模型的最大增幅。原因是RAG+能同时检索“刑法条文”与“类似判例”,帮模型精准判断“轻伤+持械”“自首”等情节对量刑的影响,避免传统RAG“只看法条、忽略案情”的错误。
  2. 模型摆脱“结构理解困境”:DS-Qwen-7B、LLaMA3.1-8B等小模型,因难以理解GraphRAG的实体关系,单独使用GraphRAG时准确率仅42.0%、36.5%;加入应用增强后(GraphRAG+),准确率分别提升至47.5%、46.0%,应用示例将“实体关系”转化为“量刑步骤”,降低了小模型的理解门槛。
  3. 模型存在边际效应:LLaMA3.3-70B本身推理能力强,用RAG+后准确率较RAG仅提升5.5%,说明模型规模越大,对应用示例的依赖度越低,但RAG+仍能补充“罕见案情”的推理经验。

医学领域:诊断逻辑更严谨,Rerank RAG+成最优配置

  1. Rerank RAG+适配多数模型:LLaMA3.3-70B用Rerank RAG+时准确率达85.6%,较Rerank RAG(81.0%)、基线(78.2%)分别提升4.6%、7.4%;Qwen2.5-7B、LLaMA3.1-8B等小模型,用Rerank RAG+后准确率也有2.2%-3.4%的提升。重排序保证了“症状-疾病”知识的相关性,应用示例则教模型建立“基础病→血管病变→多症状”的因果链,避免传统RAG“症状误判”。
  2. AFRAG+提供稳定补充:AFRAG(先生成答案再检索证据)在医学领域表现优于普通RAG(如QwQ-32B用AFRAG时准确率81.2%,RAG时80.2%),加入应用增强后(AFRAG+)进一步提升至82.2%,说明“生成引导检索+应用指导”能减少“漏诊”,让诊断更全面。

消融实验

模型规模的影响:规模与应用增强呈“互补关系”

实验用Qwen2.5系列(7B/14B/72B)测试发现:

  • 型规模越大,RAG+的增益越显著:法律领域中,7B模型用RAG+时准确率76.5%,14B提升至82.5%,72B达87.5%;医学领域中,7B模型RAG+准确率57.6%,14B、72B分别提升至69.8%、75.2%。
  • 核心原因:大模型的逻辑提炼能力更强,能从应用示例中总结通用推理模板;小模型则更依赖应用示例的步骤模仿,虽有增益但幅度有限

重排序模型的影响:大模型重排+应用增强实现“1+1>2”

传统Rerank RAG的痛点是“小模型重排失效”(如Qwen2.5-7B常因看不懂指令直接生成答案),实验用Qwen2.5-72B(大模型)替代小模型做重排序,结果显示:

  • 大模型重排本身即有增益:Qwen2.5-7B在法律任务中,用大模型重排的Rerank(72B)RAG准确率72.5%,较自排的Rerank RAG(70.5%)提升2%;
  • 叠加应用增强后增益翻倍:Qwen2.5-7B用Rerank(72B)RAG+时,法律任务准确率飙升至83.5%,较自排Rerank RAG+(74.5%)提升9%。这证明“高质量检索结果+应用指导是性能最大化的关键,且跨模型协作(大模型重排+小模型生成)能平衡效果与成本”。

仅应用示例的影响:应用示例可“救急”,但不能替代知识

实验测试“只检索应用示例、不检索知识”(RAG-、AFRAG-)的效果,发现:

  • 应用示例有基础增益:Qwen2.5-14B在法律任务中,用RAG-时准确率76.5%,较基线(74.0%)提升2.5%,应用示例能提供“推理结构线索”(如解题步骤模板);
  • 但“知识+应用才是最优解:Qwen2.5-14B用RAG+时准确率82.5%,较RAG-提升6%;DS-Qwen-32B用AFRAG+时86.5%,较AFRAG-(83.0%)提升3.5%。无知识支撑时,应用示例易“用错场景”(如用数学步骤套法律推理),而知识能提供“事实锚点”,确保应用逻辑不偏离。

案例直击:RAG+是怎么纠正错误的

以数学领域 “多项式插值问题” 为核心案例,对比传统 RAG 与 RAG + 的推理过程,即使传统 RAG 检索到正确知识,也可能因 “方法误用” 或 “执行失误” 出错;而 RAG + 的 “知识 + 应用” 双检索,能为模型提供 “方法选择依据” 与 “步骤校验模板”,让复杂推理更精准、更可靠。

04

总结:

RAG的下一站,是“会用知识”

对于需要复杂推理的特定场景(如数学计算、法律量刑、医学诊断),RAG+无需对现有RAG链路进行大幅算法改动,仅通过轻量化升级即可实现性能突破。这种升级看似简单,却精准解决了实际应用中“知识用不对、用不好”的核心痛点,让RAG从“事实回忆工具”进化为“复杂推理助手”。

现存难点:落地过程中需平衡“效果”与“成本”

尽管RAG+表现亮眼,但实际落地仍面临三大挑战:

  1. 应用语料库构建成本高:高质量应用示例需结合人工校验(如法律领域需律师审核判例、医学领域需医师验证临床逻辑),而纯LLM自动生成的示例可能存在错误(如简化复杂病情推理)或场景偏差,影响模型判断;
  2. 依赖“知识-应用”强对齐:若检索到的知识本身存在噪声(如错误法条解读、过时医学指南),或内容不完整(如缺失关键公式条件),与之绑定的应用示例可能“错上加错”,反而误导模型推理;
  3. 检索效率未优化:随着“知识+应用”双语料库规模扩大,现有检索链路(如向量匹配、重排序)的耗时会同步增加,尚未针对双语料库设计更高效的检索策略,可能影响实时性需求较高的场景(如在线医疗问答)。

未来思考:从“可用”到“好用”的优化方向

RAG+的思路仍有巨大延伸空间,可从三个维度进一步探索:

  1. 场景化动态适配:当前应用示例多为静态匹配(一个知识点对应固定示例),未来可尝试让示例“动态调整”——例如根据用户查询的具体场景(如“轻伤量刑”vs“重伤量刑”),生成或筛选更贴合的应用案例,提升推理针对性;
  2. 技术融合优化:结合强化学习(RLHF)优化“知识-应用”的匹配精度,让模型在交互中学习“哪些示例更有效”;或引入轻量化模型辅助生成应用示例,降低人工标注成本;
  3. 效率与效果平衡:针对双语料库设计专用检索优化方案(如知识与应用的联合索引、增量更新机制),在保证检索质量的同时提升速度,满足更多实时场景需求。

对开发者而言,RAG+的启示尤为明确:未来RAG开发不能只聚焦“如何搜得更准”,更要关注“如何用得更好”。毕竟,检索到知识只是基础,让模型真正学会运用知识,才能释放RAG在复杂任务中的全部价值。

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

在这里插入图片描述

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2025最新大模型全套学习资源》,包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

在这里插入图片描述

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

在这里插入图片描述

Logo

更多推荐