一、简介

随着大语言模型(LLM)在自然语言处理中的广泛应用,传统检索增强生成(RAG)方法在面对需要全局理解的复杂查询时显露出局限性。这类“全局感知查询”(sensemaking queries)要求系统能够理解大规模文本集中实体间的复杂关系,而基于向量检索的RAG方法往往只能返回局部相关的文本片段,缺乏对整体语料的全局推理能力。近年来,结合知识图谱的Graph RAG方法通过显式建模实体关系、构建图结构索引,显著提升了全局推理能力。本文以GraphRAG和LightRAG为代表,从知识图谱构建策略和实体关系建模方法两个角度,解读这一新兴技术方向的进展与创新。

二、GraphRAG:基于层次化社区发现的全局推理框架

GraphRAG的核心贡献在于提出了一个基于知识图谱层次化社区发现的全局推理框架,其方法显著拓展了RAG在全局感知类任务上的能力边界。

2.1 知识图谱构建与分层社区发现

GraphRAG首先使用LLM从原始语料中抽取实体及其关系,构建一个大规模知识图谱。节点对应语料中的关键实体,边则表征实体间的语义关系。这一构建过程充分利用了LLM的语义理解能力,能够识别并规范化跨文档的实体指代,并推断出隐含的语义关系。与传统基于规则或统计的图谱构建方法不同,LLM驱动的构建策略能够更好地处理多样化的语言表达和隐含语义关系。

在图谱构建完成后,GraphRAG采用社区检测算法将图谱划分为多个层次化的社区结构。底层社区由紧密关联的实体簇组成,高层社区则通过合并底层社区形成更大的语义单元。这种层次化结构为后续的分层摘要生成提供了基础,使得系统能够从局部到全局逐步理解整个知识库的语义结构。

2.2 社区摘要生成与查询处理

基于分层社区结构,GraphRAG采用自底向上的方式生成社区摘要。底层社区摘要首先由LLM生成,描述该社区内实体及其关系的核心语义。高层社区摘要则通过综合其子社区摘要生成,形成层次化的摘要体系。这种设计使得高层摘要能够保持对底层细节的感知,同时提供更加整合的全局视角。

在处理查询时,GraphRAG采用map-reduce框架:首先将查询映射到各个社区摘要,并行生成局部答案;然后通过reduce阶段整合这些局部答案,形成最终的全局响应。这种方法不仅提高了处理效率,而且确保了对整个知识库的全面覆盖,能够有效回答需要全局理解的复杂查询。

图片

2.3 实验效果

实验一 GraphRAG在全面性、多样性和效率上均显著优于传统RAG。

图片

实验二 事实性验证下,GraphRAG全面性与多样性持续领先SS。

图片

三、LightRAG:高效双层级检索与动态更新机制

LightRAG专注于解决Graph RAG系统的效率与可扩展性问题,提出了一个轻量化的图索引与检索框架,在保持全局推理能力的同时显著提升了系统性能。

3.1 图索引与双层级检索框架

LightRAG创新性地设计了双层级检索机制,将检索过程分为低层级实体关系检索和高层级主题概念检索。低层级检索专注于特定实体及其直接关系,确保答案的精确性和事实准确性;高层级检索则关注更广泛的主题和概念关联,提供全局语境和跨领域洞察。

这种双层级检索通过统一的图索引结构实现。LightRAG首先使用LLM从文本中提取实体和关系,构建知识图谱。与GraphRAG不同的是,LightRAG的图谱构建更加注重检索效率,采用了轻量化的实体消歧和关系提取策略。图谱中的每个节点都关联到原始文本片段,既保持了语义丰富性,又支持高效检索。

图片

3.2 动态更新与效率优化

针对现实应用中数据不断更新的需求,LightRAG提出了增量式图谱更新算法。新数据到来时,系统只需更新受影响的部分图谱结构,无需重新构建整个图谱,大大降低了计算成本。这种设计使得LightRAG能够快速适应动态变化的知识库,保持系统的时效性。

在检索效率方面,LightRAG结合了向量检索和图遍历的优势。首先使用向量检索快速定位相关实体,然后通过图遍历探索实体间的关系路径,最后综合两者结果进行排序和选择。这种混合检索策略在保持图谱推理能力的同时,实现了接近传统向量检索的响应速度。

3.3 实验效果

LightRAG 的实验结果表明,其在大规模跨域语料上的表现显著优于传统 RAG 基线方法,并在多维度评估中展现出独特优势。

图片

消融实验表明,低层次与高层次检索的结合显著提升了答案的全面性与多样性,语义图索引在无原始文本时仍保持较好性能。

图片

在成本与适应性上,LightRAG相比GraphRAG显著减少了检索所需tokens与API调用,并能高效适应增量数据更新。

图片

四、PathRAG:使用关联路径对基于图的检索增强生成进行剪枝

考虑到在Graph RAG中,对于检索信息不加筛选地直接使用可能引入噪音,PathRAG提出了 使用关联路径的方法对检索信息进行剪枝以减少噪音,同时用推理路径显示指导大模型,以提升模 型的性能。

4.1 基于流量的路径剪枝算法

Graph RAG直接使用检索节点的一阶子图作为检索信息,该信息可能会存在噪音,且子图信 息并列拼接提供给大模型,导致缺失了潜在关联信息。针对这些问题,PathRAG提出了基于流量的 路径剪枝算法。

图片

核心点在于,针对任意两个基于query检索得到的检索节点,将其交替作为流量的起点与终 点,进行初始流量的分发与最终流量的汇聚。在这个过程中,每个节点都将获取上游节点沿边传递 而来的流量,也就继续向下游节点沿边进行流量的传递,边上也设置了磨损率来模拟信息的传递损 失。之后,使用边上的均值流量对路径进行重要性排序,选取topk个路径提供给大模型进行问题的 回答。 该方法不仅能有效减少“与检索节点相关而与问题回答无关”的噪音,还对检索信息进行了重 要性排序,筛选出了更重要的信息帮助大模型进行回答,并额外关联到了一阶子图外的节点、边信 息,提高了模型的性能。

4.2 基于路径的prompt模板

考虑到直接并列拼接检索信息,会缺乏信息之间的潜在关联,导致大模型无法很好地使用检 索信息进行高质量的回答。PathRAG将检索信息以路径的形式显式地提供给大模型,指导其进行信 息使用与问题回答。 同时考虑到大模型常见的“lost in the middle”现象,依照此前的重要性排序,将更为重要的 信息放置于末尾能有效提高模型的性能。

图片

4.3 实验效果

PathRAG沿用了GraphRAG与LightRAG的评估体系及数据集,并在更多的评估维度和数据集上相较 基线有着更为出色的性能

图片

消融实验上也证明了基于流量的排序与基于路径的prompt模板的有效性

图片

五、总结

本文从知识图谱构建与应用的视角,介绍了以GraphRAG、LightRAG和PathRAG为代表的Graph RAG新兴技术方向。这三项研究均通过引入知识图谱来增强传统RAG的全局推理能力,但各有侧重:

  • GraphRAG通过层次化社区发现实现深层次语义聚合,擅长处理复杂的全局查询;

  • LightRAG则通过双层级检索与动态更新机制,在保持推理能力的同时显著提升了效率与实用性;

  • PathRAG进一步通过关联路径剪枝与推理引导,有效减少了信息噪音,提升了答案的精准度。

这些进展共同表明,融合知识图谱与LLM的检索增强生成技术,在解决复杂知识推理任务方面具有重要的应用价值和广阔的发展前景。

  如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。 

 这份《LLM项目+学习笔记+电子书籍+学习视频》已经整理好,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

更多推荐