在构建检索增强生成(RAG)系统时,我们常常陷入一个困境:如何确保检索到的上下文既“语义相关”又“关键词精确”?

想象一下这个场景:

  • 当用户搜索“苹果公司发布的 M3 芯片评测”时,一个纯粹依赖向量搜索的 RAG 系统可能会返回一篇关于“苹果公司最新财报”的文章。从语义上看,这没错,两者都与“苹果公司”高度相关。但用户最关心的核心关键词——“M3 芯片”——却被忽略了。
  • 反过来,当用户搜索“好用的笔记本电脑”时,一个传统的关键词搜索引擎(如 BM25)可能会因为无法理解“好用”这个主观词汇,或者因为“笔记本电脑”这个词在太多文档中出现,而返回一大堆不相关的结果。它无法领会用户寻找“高性能”、“轻薄”或“长续航”的真实意图

这两种情况都指向了一个核心问题:单纯依赖一种搜索范式,无论是基于稠密向量的语义搜索,还是基于稀疏向量的关键词搜索,都有其局限性。

为了解决这个问题,混合搜索(Hybrid Search)应运而生。它并非简单的两者叠加,而是通过智能地融合两种搜索范式的结果,实现 1 + 1 > 2 的效果,正在成为构建下一代高质量 RAG 应用的关键。

  1. 搜索的双引擎:从传统关键词到智能稀疏向量

要理解混合搜索,我们首先要了解它的两个核心引擎。

第一类引擎:关键词匹配 (Keyword Matching)

这类引擎的核心是找到与查询词完全匹配或高度相关的文档。

传统方法:BM25 / TF-IDF

这是经典的、基于统计的关键词搜索算法。它们通过计算词频(Term Frequency)和逆文档频率(Inverse Document Frequency)来评估一个词在一个文档中的重要性。简单来说,一个词在一个文档中出现次数越多,但在所有文档中越稀有,它的权重就越高。

  • 优点: 技术成熟,计算速度快,对于包含专业术语、产品型号、人名等精确查询非常有效。
  • 缺点: 无法理解同义词或上下文,存在“词汇鸿沟”问题。
现代方法:模型生成的稀疏向量 (Learned Sparse Vectors)

这是对传统关键词搜索的一次“智能升级”。像 SPLADEBGE-M3-Sparse 这样的模型,通过深度学习来生成一个高维但大部分值为零的“稀疏向量”。

  • 是什么: 这个稀疏向量的非零值代表了文档中最重要的词汇及其“概念权重”。与 BM25 纯粹基于词频不同,模型能够理解词汇在特定上下文中的重要性。
  • 为什么更好: 它不仅能匹配关键词,还能进行一定程度的语义扩展。例如,模型可能知道 “cpu” 和 “processor” 是高度相关的,并会给它们赋予相似的权重。这在一定程度上弥合了“词汇鸿沟”。

第二类引擎:语义理解 (Semantic Understanding)

这类引擎的目标是理解查询背后的深层意图。

稠密向量 (Dense Vectors)

通过 Sentence Transformers 这类模型,我们可以将文本转换成一个几百维的“稠密向量”(Dense Vector)。这个向量可以被看作是文本在语义空间中的一个坐标。

  • 工作原理: RAG 系统将用户的查询也转换成一个向量,然后在向量数据库中通过近似最近邻(ANN)搜索,找到与之“距离”最近的文档向量。
  • 优点: 能够轻松跨越“词汇鸿沟”,理解同义词、近义词和上下文。对于模糊、口语化的查询非常有效。
  • 缺点: 正如引言中的例子,它有时会因为过于关注整体语义而忽略掉关键的、决定性的词汇。

总结对比

特性 BM25 / TF-IDF 模型稀疏向量 (SPLADE) 稠密向量 (Embeddings)
核心原理 词频统计 语言模型生成权重 语义空间映射
向量类型 稀疏 稀疏 稠密
优点 速度快,精确匹配 精确且有语义扩展 理解意图,处理模糊查询
缺点 词汇鸿沟,不理解语义 计算开销较大 可能忽略关键词
最适用场景 专业术语、代码搜索 需要精确匹配但又希望有一定语义灵活性的场景 问答、对话、概念搜索
  1. 混合搜索的核心:结果融合 (Result Fusion)

当我们从稀疏和稠密两种搜索中各得到一个按相关性排序的文档列表后,如何将它们合并成一个更优的列表?这就是结果融合的艺术。

最简单的方法是加权平均,但它依赖于两种搜索返回的、不可直接比较的分数,效果往往不佳。

目前,业界最推崇的方法之一是 倒数排名融合 (Reciprocal Rank Fusion, RRF)

  • 核心思想: RRF 不关心原始的相关性分数,只关心文档在每个列表中的排名。一个文档在任何一个列表里排名越高,它的最终得分就越高。
  • 计算公式:Score(doc) = Σ (1 / (k + rank_i))其中,rank_i 是文档在第 i 个搜索结果列表中的排名,k 是一个小的平滑常数(通常设为 60),用于降低排名靠后结果的权重。
  • 为什么有效: RRF 非常鲁棒且简单。它优雅地绕开了归一化不同搜索引擎得分的难题,让排名决定一切,使得两种完全不同的搜索范式可以公平地“投票”。
  1. 动手实践:用 Python 实现一个简单的混合搜索

下面,我们用 rank-bm25sentence-transformers 库来模拟一个混合搜索过程。

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line

运行结果分析:

  • BM25 会把包含 “M3” 和 “chip” 的文档排在最前面。
  • 向量搜索 会把与 “Apple” 和 “review” 语义相关的文档排在前面,可能会包含那篇财报。
  • 混合搜索 的结果则会是最好的:包含 “M3 chip” 的评测文章会因为在两个列表中都排名靠前(或至少在 BM25 中排名极高)而获得最高的 RRF 分数,从而脱颖而出。
  1. RAG 的进化:为什么混合搜索是关键?

将混合搜索集成到 RAG 系统中,带来的不仅仅是检索精度的提升:

  • 更高质量的上下文: LLM 获取的上下文将同时包含关键词精确和语义相关的信息,使其能够生成更全面、更准确的答案。
  • 显著减少“幻觉”: 高质量、高相关的上下文是减少 LLM“凭空捏造”的根本。当模型有了坚实的信息基础,它就不需要去猜测和编造。
  • 提升用户体验: 无论用户输入的是精确的技术术语还是模糊的日常问题,RAG 系统都能给出更可靠、更令人满意的回答,系统的鲁棒性和适用性大大增强。
  1. 结论与展望

混合搜索并非一个复杂的概念,但它通过智能地融合稀疏和稠密两种搜索范式,精准地解决了各自的短板,让搜索结果的质量产生了质的飞跃。它不再是锦上添花,而是正在成为构建下一代强大、可靠 RAG 应用的核心组件。

混合搜索并非一个复杂的概念,但它通过智能地融合稀疏和稠密两种搜索范式,精准地解决了各自的短板,让搜索结果的质量产生了质的飞跃。它不再是锦上添花,而是正在成为构建下一代强大、可靠 RAG 应用的核心组件。

展望未来,我们可能会看到更智能的、能够根据查询意图自适应调整融合权重的策略出现。但就目前而言,掌握并应用混合搜索,无疑是每一位 AI 应用开发者都应该具备的关键能力。

如何学习大模型 AI ?

我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍+AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

为什么要学习大模型?

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

在这里插入图片描述

适合人群

  • 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
  • IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
  • IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
  • 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
    在这里插入图片描述

课程精彩瞬间

大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。

在这里插入图片描述

RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。 在这里插入图片描述

Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
在这里插入图片描述

模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。 在这里插入图片描述

顶尖师资,深耕AI大模型前沿技术

实战专家亲授,让你少走弯路
在这里插入图片描述

一对一学习规划,职业生涯指导

  • 真实商业项目实训
  • 大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调

在这里插入图片描述
大厂绿色直通车,冲击行业高薪岗位
在这里插入图片描述

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

更多推荐