KAG框架详解：让大模型具备逻辑推理能力的神器

KAG是基于OpenSPG引擎和大型语言模型的逻辑推理问答框架，用于构建垂直领域知识库。它克服了传统RAG的歧义性和GraphRAG的噪声问题，支持逻辑推理和多跳事实问答。KAG提供LLM友好的语义化知识管理框架和逻辑符号引导的混合推理引擎，整合图谱推理、逻辑计算、Chunk检索和LLM推理四种能力。文章详细介绍了KAG的部署、知识库创建和问答测试流程，为开发者提供完整实践指南。

Python程序员罗宾

930人浏览 · 2025-09-23 11:05:54

Python程序员罗宾 · 2025-09-23 11:05:54 发布

前排提示，文末有大模型AGI-CSDN独家资料包哦！

KAG****是什么

KAG 是基于 OpenSPG 引擎和大型语言模型的逻辑推理问答框架，用于构建垂直领域知识库的逻辑推理问答解决方案。KAG 可以有效克服传统 RAG 向量相似度计算的歧义性和 OpenIE 引入的 GraphRAG 的噪声问题。KAG 支持逻辑推理、多跳事实问答等，并且明显优于目前的 SOTA 方法。

KAG 的目标是在专业领域构建知识增强的 LLM 服务框架，支持逻辑推理、事实问答等。KAG 充分融合了 KG 的逻辑性和事实性特点，其核心功能包括：

知识与 Chunk 互索引结构，以整合更丰富的上下文文本信息
利用概念语义推理进行知识对齐，缓解 OpenIE 引入的噪音问题
支持 Schema-Constraint 知识构建，支持领域专家知识的表示与构建
逻辑符号引导的混合推理与检索，实现逻辑推理和多跳推理问答。

KAG****核心功能

LLM****友好的语义化知识管理

私域知识库场景，非结构化数据、结构化信息、业务专家经验往往三者共存，KAG 提出了一种对大型语言模型（LLM）友好的知识表示框架，在 DIKW（数据、信息、知识和智慧）的层次结构基础上，将 SPG 升级为对 LLM 友好的版本，命名为 LLMFriSPG。

这使得它能够在同一知识类型（如实体类型、事件类型）上兼容无 schema 约束的信息提取和有 schema 约束的专业知识构建，并支持图结构与原始文本块之间的互索引表示。

这种互索引表示有助于基于图结构的倒排索引的构建，并促进了逻辑形式的统一表示、推理和检索。同时通过知识理解、语义对齐等进一步降低信息抽取的噪声，提升知识的准确率和一致性。

逻辑符号引导的混合推理引擎

KAG 提出了一种逻辑符号引导的混合求解和推理引擎。该引擎包括三种类型的运算符：规划、推理和检索，将自然语言问题转化为结合语言和符号的问题求解过程。

在这个过程中，每一步都可以利用不同的运算符，如精确匹配检索、文本检索、数值计算或语义推理，从而实现四种不同问题求解过程的集成：图谱推理、逻辑计算、Chunk 检索和 LLM 推理。

快速开始

首先git clone https://github.com/OpenSPG/KAG.git把项目下载到本地，进入KAG目录，使用以下命令下载 docker-compose.yml 并用 Docker Compose 启动服务。

# set the HOME environment variable (only Windows users need to execute this command)

# set HOME=%USERPROFILE%

curl -sSL 
https://raw.githubusercontent.com/OpenSPG/openspg/refs/heads/master/dev/release/docker-compose-west.yml -o docker-compose-west.yml

# 
拉取和启动neo4j、mysql等相关服务

docker compose -f docker-compose-west.yml up -d

注：如果curl命令无法下载，直接把后面的地址粘贴到浏览器，自己手动创建一个docker-compose-west.yml文件，把浏览器里的内容粘贴进去即可。

执行docker compose后，查看服务状态

# docker ps

# docker logs -f release-openspg-server

没有出现error等字眼表示服务启动成功，然后再浏览器输入http://127.0.0.1:8887或者http://你的服务器ip:8887就可以通过可视化界面访问了，以下是一些默认登录信息

# 
默认登录信息

用户名：openspg

默认密码：openspg@kag

默认密码必须修改后才能使用，如忘记密码，可以在db里重新初始化

UPDATE kg_user SET `gmt_create` = now(),`gmt_modified` = now(),`dw_access_key` ='efea9c06f9a581fe392bab2ee9a0508b2878f958c1f422f8080999e7dc024b83' where user_no = 'openspg' limit 1;

创建知识库

登录成功后开始创建知识库，点击右上角全局配置

配置必要的数据库和模型参数，填入你neo4j的连接信息、向量接口，向量接口可以到硅基流动的申请一个api，BAAI系列的向量有几个是免费的，也可以自己部署，支持openai接口就行。

然后是抽取模型配置，点击maas，输入你的对应的模型参数即可。完成这一步就可以开始构建自己的知识库了。

点击首页，然后点击创建知识库，输入自己的知识库中文名和英文名，点击保存。

点击知识库配置->创建任务，上传需要抽取的文档，然后点下一步配置分段方式，如果勾选根据语义切分段落，会调用大模型根据文档的主题生成切分点进行分段，可以根据需要选择。

再下一步选择前面配置过的抽取模型，点击完成开始执行知识抽取。等待抽取完成即可。点击日志可以查看抽取进度。

点击查看抽取结果，可以看到项目提供了可视化的界面。

试试问答效果

提问：刘亦菲获得中国电视剧年度盛典年度女演员奖的电影扮演的角色叫什么？

问题被自动拆分为3个子问题：

子问题一：查询刘亦菲获得该奖的相关电视剧信息，可以看到定位到了《玫瑰的故事》

子问题2：返回相关电影和角色信息，第二个子问题其实已经拿到答案了

最后综合子问题的回答，拿到最终答案

读者福利：倘若大家对大模型感兴趣，那么这套大模型学习资料一定对你有用。

针对0基础小白：

如果你是零基础小白，快速入门大模型是可行的。
大模型学习流程较短，学习内容全面，需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一，跟着老师的思路，由浅入深，从理论到实操，其实大模型并不难。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

北京朝阳AI社区

更多推荐

Llama-3.1-8B 昇腾轻量化部署实战：Atlas 200I 显存压降至 4GB 内（CANN 8.0 量化 + 避坑指南）

本文详细介绍了如何在Atlas200I边缘设备上高效部署Llama-3.1-8B大模型。通过CANN8.0的W8A16量化、KVCache优化和双Stream异步架构三大关键技术，将模型显存占用从16GB压缩至4GB内，推理时延从300ms降至50ms，设备利用率提升至82%。文章提供了从环境搭建、模型量化到推理优化的完整解决方案，包含12个常见问题应对策略，有效解决了大模型在边缘端的部署难题，为