带你从入门到精通——知识图谱(一. 知识图谱入门)
知识图谱(Knowledge Graph)是一种基于图数据结构的关系网络或数据库,在知识图谱中,节点可以表示概念(抽象出来的事物,也称本体)、实体(具体的事物)、属性值,边可以表示事物的关系(事物的内外部联系)或属性(事物的内部特征),由于图可以分为有向图和无向图,因此知识图谱也可以是有向或无向的。与传统的关系型数据库,如MySQL相比,知识图谱能够通过节点和边的关系更便捷地处理复杂的多跳关系、并
目录
一. 知识图谱入门
1.1 知识图谱概述
知识图谱(Knowledge Graph)是一种基于图数据结构的关系网络或数据库,于2012年正式被Google提出,在知识图谱中,节点可以表示概念(抽象出来的事物,也称本体)、实体(具体的事物)、属性值,边可以表示事物的关系(事物的内外部联系)或属性(事物的内部特征),由于图可以分为有向图和无向图,因此知识图谱也可以是有向或无向的。
与传统的关系型数据库,如MySQL相比,知识图谱能够通过节点和边的关系更便捷地处理复杂的多跳关系、并且在数据层添加新的节点和边不会影响已有的数据,有着更强的可扩展性,此外知识图谱还支持语义推理。
1.2 分层架构
知识图谱的分层架构通常包括两个主要层:数据层(data layer)和模式层(schema layer)。
1.2.1 数据层
数据层是知识图谱的基础,用于存储知识图谱的具体数据,类似于关系型数据库的数据表中的具体数据,在数据层中通常使用资源描述框架(Resource Description Framework,RDF)来存储实体、实体的属性以及实体之间的关系。
RDF使用三元组来存储数据,例如:(实体,关系,实体)、(实体,属性,属性值),这样的一个三元组即为一个知识。
在数据层中,节点表示实体或属性值,边表示关系或属性,并且数据层是动态的,可以不断扩展和更新。
1.2.2 模式层
模式层知识图谱的逻辑框架,用于定义知识图谱的结构和规则,类似于关系型数据库中的表结构(表结构包括表的字段、字段的数据类型及其键约束),在模式层中通过本体(即实体的抽象化概念)来定义知识的结构和规则,对数据层进行约束。
在模式层中,节点表示本体(包含了属性约束,用于约束数据层中的实体与其属性),边表示本体间的关系,模式层是静态的,设计时需根据业务需求定义。
1.3 技术架构
知识图谱的整体技术框架图如下:
数据获取:用于构建知识图谱的数据可以分为三种:结构化数据、半结构化数据以及非结构化数据,其中结构化数据是指以二维表格存储的数据(如CSV文件、TSV文件);半结构化数据具有一定的结构性的数据(如以键值对存储的JSON文件、带有标签的XML文件);非结构化数据是指没有明确结构的数据(如txt纯文本文件)。
信息抽取:信息抽取是指从异构数据(指不同格式、不同结构或是不同来源的数据)中抽取可用的候选知识单元,对于结构化数据只需要进行简单的预处理即可使用,但是对于半结构化数据和非结构化数据一般需要进行实体抽取、关系抽取以及属性抽取等步骤才能提炼出可以使用的结构化信息。
注意:对于属性抽取可以转换为实体和属性值之间的关系抽取。
知识融合:知识融合是指将多源异构的候选知识单元统一整合到一个一致的知识体系中,知识融合的过程需要解决指代消解、实体消歧等问题。
知识加工:知识加工是指对完成知识融合后得到的知识体系或是由知识推理得到的新的候选知识单元进行进一步加工和质量评估并形成知识图谱的过程。
更多推荐
所有评论(0)