【技术干货】RAKG：文档级检索增强型知识图谱构建，收藏学习大模型必备！

RAKG框架是一种创新的文档级检索增强型知识图谱构建方法，通过预实体提取和双重检索策略，解决了传统方法在长文本处理中的局限性。该框架包含文档分块、预实体构建、关系网络构建和知识图谱融合四个关键步骤，采用拓扑结构覆盖和关系网络对齐的创新设计。实验表明，RAKG在MINE数据集上准确率达95.81%，显著优于GraphRAG等基线模型，为文档级知识图谱构建提供了高效可靠的解决方案。

Python程序员小泉

702人浏览 · 2025-10-22 11:28:29

Python程序员小泉 · 2025-10-22 11:28:29 发布

本次分享一种名为 RAKG（Document-level Retrieval Augmented Knowledge Graph Construction）的框架，旨在解决传统知识图谱构建（KGC）方法在文档级知识图谱构建中的局限性。

一、GraphRAG的局限性

传统 KGC 方法主要依赖于专家系统和基于规则的模式匹配，虽然能够保证一定的知识准确性，但面临高昂的人力成本和较差的可扩展性。
随着深度学习的发展，基于神经网络的端到端构建方法显著提高了关系抽取的效率。然而，这些方法大多依赖于复杂的特征工程和大量的标注数据，模型性能容易受到数据质量和分布变化的影响。
如复杂的实体消歧、僵化的模式定义以及跨文档知识整合不足等问题

RAKG 框架通过从文本片段中提取预实体，并利用这些预实体作为检索增强生成（RAG）技术的查询，有效解决了 LLMs 在长文本处理中的上下文遗忘问题，降低了核心ference Resolution 的复杂性，并更有效地捕获全局信息和节点间的相互联系，从而提升了模型的整体性能。

RAKG 重点关注文档级知识图谱的构建，假设每篇文档对应一个理想的知识图谱，并基于此建立了一个定量评估系统。
采用双重评估标准：

一是拓扑结构的完整性，即构建的知识图谱必须涵盖理想知识图谱中的所有节点；
二是关系网络的相似性，即每个对应节点的关联结构必须与理想知识图谱中对应节点的拓扑关系达到最大相似性。

二、RAKG的创新点

2.1 拓扑结构覆盖

为了解决拓扑结构覆盖问题，RAKG 采用基于句子的命名实体识别（NER）方法，充分利用 LLMs 强大的自然语言处理能力。
逐句 NER 方法：通过逐句分析文本，确保每个句子中的实体都能被准确识别，避免了传统方法中因长文本处理而导致的实体遗漏问题。
预实体概念的引入：预实体作为中间表示单元，降低了实体消歧的复杂性，同时为后续的信息整合提供了便利。

2.2 关系网络对齐

关系网络的构建是知识图谱构建中的关键环节。 RAKG 提出了一个两步策略：

语料库回溯检索，通过检索识别出的实体出现的文本片段，整合多视角的语义信息，并将其输入 LLM 以生成关系网络；
图结构检索，从初始知识图谱中检索与节点相关的信息，并将其整合到输入中，以保持与初始知识图谱的一致性，避免因 LLMs 的幻觉问题而导致的错误关系生成。

三、RAKG框架结构

RAKG 框架的整体结构包括以下几个关键步骤：

文档分块与向量化：

RAKG 采用基于语义完整性的动态分块策略，将文档分割为多个文本片段，并对每个片段进行向量化处理。
这种方法不仅减少了 LLM 每次处理的信息量，还确保了每个片段的语义完整性，从而提高了命名实体识别的准确性。

预实体构建：

通过逐句进行 NER，识别出文本片段中的实体，并为每个预实体分配类型和描述属性。
随后，通过向量相似度检查和 LLM 的最终判断，对相似实体进行消歧处理，确保知识图谱中实体的唯一性。

关系网络构建：

通过语料库回溯检索和图结构检索，获取与实体相关的文本片段和知识图谱信息，并将其输入 LLM 以生成关系网络。
最后，利用 LLM 对生成的三元组进行真实性评估，确保关系网络的准确性和可靠性。

知识图谱融合：

将新构建的知识图谱与初始知识图谱进行融合，包括实体合并和关系整合，以获得更全面的知识图谱。

以“蝴蝶的生命周期”为例:

RAKG 的命名实体识别模块检测到 23 个核心实体，其中“蝴蝶卵”“毛毛虫”和“成年蝴蝶”是中心实体。这些实体在文章中有密集的文本块，表明它们是关键概念。以“成年蝴蝶”为例，RAKG 检索到描述其五个特征的专业文本块，并从原始知识图谱中检索到与“成年蝴蝶”相关的子图。通过将这些文本块和子图整合后输入 LLM，RAKG 构建了以“成年蝴蝶”为中心的关系网络，形成了完整的子图。最终，通过整合所有子图，RAKG 构建了一个系统化的知识图谱，清晰地展示了文章的核心概念及其相互关系。

3.1文档分块与向量化

文档分块：RAKG 采用动态分块策略，将文档按照句子边界分割为多个文本片段，确保每个片段的语义完整性。具体公式如下：

满足且

其中，表示分割后的文本片段集合，表示第个文本片段。
向量化处理：对每个文本片段进行向量化处理，得到文本片段的向量表示。具体公式如下：

其中，表示文本片段的向量集合，表示第个文本片段的向量表示。

3.2 预实体构建

命名实体识别（NER）：对每个文本片段进行逐句 NER，识别出其中的实体，并为每个预实体分配类型和描述属性。具体公式如下：

其中，表示第个文本片段中识别出的预实体集合，表示所有预实体的集合。
向量化处理：对每个预实体进行向量化处理，得到预实体的向量表示。具体公式如下：

其中，表示预实体的向量集合，表示第个预实体的向量表示。
实体消歧：对识别出的预实体进行相似性检查，将相似度高于阈值的实体放入初步相似实体集合中，然后通过 LLM 进行最终判断，将相似实体合并为一个实体。具体公式如下：

其中，表示与实体相似的预实体集合，表示经过 LLM 判断后与相同的实体集合。

3.3 关系网络构建

语料库回溯检索：对于指定的实体 (e)，通过检索与实体相关的文本片段，获取与实体相关的语义信息。具体公式如下：

其中，表示与实体相关的文本片段集合。
图结构检索：对于指定的实体 (e)，从初始知识图谱中检索与实体相关的节点及其关系网络。具体公式如下：

其中，表示与实体相关的节点集合。
关系网络生成与评估：将检索到的文本片段和关系网络信息整合后输入 LLM，生成实体的关系网络，并通过 LLM 对生成的三元组进行真实性评估。具体公式如下：

其中，表示实体的关系网络。

3.4 知识图谱融合

实体合并：将新构建的知识图谱中的实体与初始知识图谱中的实体进行合并，确保知识图谱中实体的唯一性。
关系整合：将新构建的知识图谱中的关系与初始知识图谱中的关系进行整合，形成更全面的知识图谱。

四、数据集与评价指标

数据集：本文使用 MINE 数据集进行实验，该数据集包含 105 篇文章，每篇文章约 1000 字，涵盖历史、艺术、科学、伦理和心理学等多个领域。通过 LLM 从每篇文章中提取 15 个事实，并手动验证其准确性和相关性。通过检查知识图谱是否能够捕捉这些事实，评估文本到知识图谱提取器的有效性。
基线模型：

KGGen：由斯坦福可信人工智能研究实验室（STAIR Lab）开发的开源工具，能够自动从纯文本生成知识图谱。
GraphRAG：由微软提出的一种基于知识图谱的检索增强生成框架，通过构建结构化的知识图谱来增强 LLMs 的性能。

评估指标：

实体密度（ED）：表示知识图谱中实体的数量，反映了从文本中提取信息的能力。
关系丰富度（RR）：表示知识图谱中关系的数量，反映了实体关系网络的复杂性。
实体保真度（EF）：通过 LLM 对提取的实体进行评估，确保其与原文本内容的一致性。
关系保真度（RF）：通过 LLM 对提取的关系进行评估，确保其与原文本内容的一致性。
准确性（Accuracy）：通过知识图谱在 MINE 数据集上的问答准确性来评估其语义信息保留能力。

准确性：RAKG 在 MINE 数据集上的准确性达到了 95.81%，显著优于 KGGen（86.48%）和 GraphRAG（89.71%）。
实体密度与关系丰富度：RAKG 构建的知识图谱在实体密度和关系丰富度方面均优于 GraphRAG 和 KGGen。RAKG 能够识别并整合更丰富的实体信息，构建更复杂的实体关系网络。
实体保真度与关系保真度：RAKG 的实体保真度和关系保真度分别为 91.33% 和 94.51%，表明其在提取实体和关系时具有较高的准确性和一致性。通过“LLM 作为评判者”的机制，RAKG 能够有效识别并消除因 LLM 幻觉问题而生成的错误节点和关系。

四、AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

在这里插入图片描述
如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

北京朝阳AI社区

更多推荐

基于分布式模型预测控制DMPC的多智能体点对点过渡轨迹生成研究（Matlab代码实现）

随着人工智能和自动化技术的飞速发展，多智能体系统（Multi-Agent Systems, MAS）在无人机编队、自动驾驶车队、机器人协同操作等领域的应用日益广泛。点对点（point-to-point）轨迹生成作为多智能体协调的基础，其目标是在满足各种约束条件（如动力学约束、避障约束、通信约束等）的前提下，为每个智能体规划一条从起始点到目标点的平滑、可行的路径。传统的集中式轨迹生成方法在处理大规模