自然语言处理(NLP)之五:知识图谱
现在的很多数据是互相连接的,如果想分析这些链接的价值,知识图谱可以是一种有效的工具。而且随着万物互联时代的到来,链接中所包含的信息必然会发挥更大的价值,这也是为什么知识图谱在最近几年发展这么快的主要原因。知识图谱的概念、应用、构建知识图谱的定义知识图谱是2012年Google公司提出的一个新名词,这项技术的出现可以追溯到上世纪的六七十年代,在Google公司为发展产业化将其称为知识图谱之前,它一直
0. 引言
现在的很多数据是互相连接的,如果想分析这些链接的价值,知识图谱可以是一种有效的工具。而且随着万物互联时代的到来,链接中所包含的信息必然会发挥更大的价值,这也是为什么知识图谱在最近几年发展这么快的主要原因。
1. 知识图谱的基础知识
知识图谱的基础知识部分,包含知识图谱的定义、与知识图谱定义相关的重要概念、知识图谱的组成要素和知识图谱中知识的结构化表示方法的相关内容。目的是掌握知识图谱相关的基础理论知识,方便在后续事件中,明晰具体(软件)工具构建在知识图谱体系中的作用与意义。详细内容,请参见作者文章:知识图谱:基础知识
2. 知识图谱的构建
构建知识图谱时按所用数据情况不同,有三种任务场景:利用非结构化数据构建知识图谱,利用结构化数据构建知识图谱,利用混合数据(既包含结构化也包含非结构化数据)构建知识图谱。
从非结构化数据构建知识图谱时,先进行信息抽取和信息融合任务,从语料数据中抽取出规定的实体、关系和属性,完成数据的结构化;然后再根据提取到的结构化数据构建知识图谱。根据结构化数据构建知识图谱的方法更为简单,就是直接从字段中抽取实体、关系和属性构建知识图谱即可。混合数据的情况就是叠加前两种情况的操作。
3. 知识图谱的分类
知识图谱分为开放域知识图谱(Open Domain Knowledge Graph)和领域知识图谱(Domain-specific Knowledge Graph)两类。其中,开放域知识图谱保存通用的知识,其数据来源一般源自非结构化数据。而领域知识图谱保存特定领域的知识,其数据来源一般源自结构化数据和非结构化数据,在公司实际工作中领域图谱更受重视,因为它聚焦于垂直领域、面向具体业务问题。
4. 知识图谱的存储
知识图谱的存储有四种实现方式:
- 根据自己的需求从零开发一个定制存储系统;
- 使用已有的RDF(三元组,Triple)存储系统;
- 使用已有的图数据库存储系统(如:Neo4j 等);
- 基于开源存储系统,按任务需求开发专属存储系统。
在企业工作中,人们常用图数据库存储知识图谱;而在学术研究中,人们常用RDF(Resource Description Framework)存储知识图谱。他们的特性对比,如下表所示:
RDF特点 | 图数据库特点 |
---|---|
存储三元组(Triple) | (边和节点)可以带有属性的图结构 |
具有标准化的推理引擎 | 没有标准的推理引擎 |
遵循W3C标准 | 图遍历效率极高 |
易于发布数据 | 具有事物管理功能 |
多数为学术应用场景 | 基本为工业应用场景 |
Neo4j 是目前主流的图数据库,它具有开发成熟、使用人数多且社区活跃的优势。但同时应注意的是,目前版本的 Neo4j 暂不支持准分布式,且对硬件、特别是对内存空间的要求比较高。
更多推荐
所有评论(0)