本文通俗易懂地讲解了RAG(检索增强生成)技术,包括其工作原理(数据准备和使用两条链路)、应用价值(解决大模型缺乏特定领域知识的问题)及实践方法。通过Cherry Studio展示了RAG的实际应用过程,分析了常见问题及解决方案,并提供了优化策略和先进框架选择指南,帮助读者全面掌握这一重要AI技术。


前段时间团队的实习生跑来问我,能不能给他讲一讲什么是 RAG?为什么需要 RAG?

他说网上看了很多资料,有些枯燥,能不能给她讲一讲。

那么今天我想通过这篇文章,让大家用更通俗易懂的方式彻底了解这个概念,并且通过 Cherry Studio 让大家看到 RAG 的过程。

1 什么是 RAG

过程描述

简单来讲,有两条链路,一个是数据的准备,一个是数据的使用。

数据准备:我们需要把文档进行切片,然后把切片后的文档通过嵌入模型进行向量化,再在向量数据库中创建索引并存储。

数据使用:首先我们需要把用户问题进行向量化,然后和向量数据库中的向量进行相似度匹配,把最相关的文档或片段作为上下文和问题拼到一起,让大模型根据问题和相关信息给出更好的回答。

向量化科普

假设我们有这么多的物品,我们希望通过距离来表示它们之间的相似性。

我们可以按照更接近三明治的这种程度放在坐标里。

我们除了根据三明治程度,还可以加上甜品程度,就开两个维度了,这样不同物品就被切分得更明显一些。

如果再加上液体程度的话,那么就三个维度了,区分度就更高了。

那么我们加上汤圆的话,它就会在图片的这个位置。

可以看到维度越多,区分度越高,我们就可以用位置的远近来代表物体之间的相似度。

详情参见:https://developers.google.com/machine-learning/crash-course/embeddings/embedding-space?hl=zh-cn

图片保持样式翻译成中文参见:直接爆了!阿里的这款免费翻译智能体竟然翻译后排版完全一致,太实用了!

为了更直观体验,我们访问网站:https://projector.tensorflow.org/

我们只需要构造我们想要的数据:一个是它的向量,一个是对应的属性,就可以直观地在多维坐标里查看。

这里我们采用 Qoder,然后把页面的信息粘贴进去,然后把我们想构造的这些文字(最好包含名称和属性)给它描述进去。

我们把生成的两个文件导入进来,然后就可以在多维坐标里查看了。可以明显地看到含义(属性)越相似位置越近。

2 为什么需要 RAG?

那么有些同学问:为什么需要这个技术?

因为大模型训练的时候,很有可能没有你这个问题所需要的数据,比如说一些业务的信息、一些特定领域的知识等。

传统的数据库只能做精确匹配或基于字符串的模糊匹配,无法真正做到语义匹配。

有了 RAG 的话,用户提出问题,检索出“语义层面”更相关的资料,再结合这些信息回答用户问题,更容易得到准确的答案。

3 “看见”RAG 的过程

大家可以使用各种工具来体验 RAG 的过程,比如 扣子、Dify、Cherry Studio 等。

有了前面的知识之后,我们再看 Cherry Studio 中的知识库配置。

这里,嵌入模型和嵌入的维度就更好理解了。

在 Cherry Studio 中选择嵌入模型把文档“扔进去”的过程其实就是“数据准备”阶段。

对话时自动检索知识库,拼接成到上下文中,并发送给大模型得到更精确答案的过程,就是“数据使用”阶段。

4 提示词工程/RAG/微调如何选择?

选择的核心在于判断你的业务痛点是**“缺数据”还是“缺技能”**:

  • 如果你只需要激发模型已有的通用能力,提示工程 (Prompt Engineering) 是成本最低的首选;
  • 如果你需要模型回答它原本不知道的实时信息或企业私有数据(即高外部知识需求),必须选择 RAG 来外挂知识库;
  • 如果你需要模型深度模仿某种特定的语气、行业黑话或输出格式(即高模型适应需求),则应选择 微调 (Fine-tuning);
  • 当你既要外挂庞大的专业知识,又要模型具备极强的特定任务表现时,就需要考虑两者的结合方案。

5 RAG 应用中常见的问题?

理想很丰满,就是我们把数据准备好,然后用户提问的时候能准确地找到,然后再很好地回答我们。

但实际上会存在很多问题:

  1. 缺失内容(Missing Content)

    查询所需信息本身并不在检索底库中。当用户提问时系统无法检索到有效内容,LLM 只好“填空”并容易产生幻觉或错误答案.

  2. 未检索到高质量文档(Missed Top-Ranked Documents)

    检索系统未将相关文档排名足够靠前,导致这些重要信息无法传递给LLM,最后答案可能不完整或错误.

  3. 上下文管理失误(Context Issues)

    检索后传递给LLM的文档可能过多、冗杂或结构混乱,导致生成模型无法有效吸收和利用上下文信息.

  4. 正确答案未被提取(Extraction Errors)

    正确答案实际在上下文中,但LLM未能准确提取,因为内容结构复杂或存在矛盾信息,影响理解.

  5. 答案格式错误(Wrong Format)

    用户希望获得特定格式(如表格、列表、JSON等)的回答,但LLM未能按要求输出,影响可用性和用户体验.

  6. 细节准确度不当(Incorrect Specificity)

    LLM结果过于笼统或过度细化,没有在“泛泛而谈”和“细节泛滥”之间找到合适平衡,难以满足用户需求.

  7. 答案不完整(Incomplete Answers)

    LLM输出内容缺失部分重要信息,尽管上下文里有全部答案,但模型未能整体归纳,导致回答不全面

详情参见:Seven Failure Points When Engineering a Retrieval Augmented Generation System 论文

6 如何提升 RAG 的准确性?

6.1优化策略

数据处理策略

  • 数据清洗(Data Cleaning):确保知识库中数据的准确性与一致性,去除重复与错误项,提升下游检索和生成质量。
  • 分块策略(Chunking):合理选择分块技术、分块大小和重叠量,既保证检索的细粒度,又不丢失上下文。
  • 嵌入模型选择与调优(Embedding Model Selection & Tuning):根据场景选择最优的嵌入模型,可以针对企业数据进行微调,提高表示能力。
  • 元数据利用(Metadata):为文档添加标签、时间、主题等元数据,增强搜索过滤与排序能力。
  • 多索引设计(Multi-Indexing):将不同类型/领域数据分开索引,提升检索效率与相关性。
  • 索引算法优化(Indexing Algorithm):采用高效的 ANN 算法(如 HNSW、IVF-PQ)优化大规模向量检索。
推理与生成阶段优化

  • 检索策略(Retriever Tuning):尝试“多检索器混合”、“重排序”、“语义多样性增强”等方法,提升检索相关性。
  • 生成模型微调(LLM Fine-tuning):基于业务数据微调生成大模型,提高问答准确度和可控性。
  • Prompt 工程(Prompt Engineering):系统性优化 prompt 模板和提示策略,强化模型的指令理解与响应能力。
  • 缓存与批量处理(Caching & Batch Processing):对热点查询结果做缓存,并对批量查询做合并,提高系统吞吐与成本效率。
  • 弹性伸缩与监控(Auto-scaling & Monitoring):引入自动扩缩容(如使用 Kubernetes)和指标监控,保障高并发下的响应时延与可用性。
  • 系统实验与 A/B 测试(Controlled Experimentation & A/B Testing):通过线上实验对比不同参数组合的实时效果,实现性能的持续优化。
补充建议
  • 模型压缩与推理加速(Model Compression):采用量化、剪枝、蒸馏等技术降低模型推理延迟和成本。
  • API 设计与用户反馈回路:提供流式响应和上下文感知的接口,采集用户反馈,持续闭环优化。

详情参见:https://towardsdatascience.com/a-guide-on-12-tuning-strategies-for-production-ready-rag-applications-7ca646833439/

6.2 使用更先进的 RAG 框架

如 Advanced RAG 加上前置处理(查询路由/查询改写/查询扩写)和后置处理(重排序/摘要/融合)。

如 Modular RAG 将整个RAG系统看作是一个由**可插拔的“模块”**组成的灵活框架。

HybridRAG 是一个框架,它通过结合知识图谱(GraphRAG)和向量数据库(VectorRAG)的检索结果来增强问答系统,旨在提供比单独使用任何一种方法都更准确的答案 。

详情参见:HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction

KAG (Knowledge Augmented Generation) 是一个面向专业领域的知识服务框架,它利用知识图谱和向量检索的互补优势,通过 LLM 友好的知识表示、逻辑形式引导的混合推理、知识对齐等关键技术,双向增强 LLM 和知识图谱的性能 。

详情参见:KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation

SELF-RAG (Self-Reflective Retrieval-Augmented Generation) 是一个通过自我反思来提升 LLM 质量和事实性的框架,它训练模型按需自适应地检索信息,并使用特殊的“反思令牌”(reflection tokens)来生成、反思和批判检索到的内容及其自身的输出。

详情参见:Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

LightRAG 是一个旨在实现简单快速的 RAG 框架,它通过将图结构纳入文本索引、采用双层(低级和高级)检索系统以及增量更新算法,来高效地检索复杂信息并快速适应数据变化 4444。

详情参见:LightRAG: Simple and Fast Retrieval-Augmented Generation

7 写在最后

RAG 弥补了“缺数据(缺知识)”的问题,但也不是“银弹”。

RAG 虽然追求语义上的匹配,但数据构造的成本高,本身的质量,嵌入模型的好坏,提取后处理等都会影响结果。

RAG 整体来说本身脱离了大模型的“控制范围”,偏“工程能力”,还不够智能。

希望未来能够有新技术出现取而代之。

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

在这里插入图片描述

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2025最新大模型全套学习资源》,包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

在这里插入图片描述

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

在这里插入图片描述

Logo

更多推荐