【论文阅读】02-A Survey on Knowledge Graphs: Representation, Acquisition, and Applications
整合人类知识是人工智能的研究方向之一。知识表示和推理是受人类问题解决的启发,将要为智能系统表示知识,使其获得解决复杂任务的能力知识图谱作为一种结构化的人类知识形式受到了学术界和工业界的极大关注知识图谱是事实的结构化表示,由实体、关系和语义描述组成。知识图谱与知识库是同义的,只是有细微的区别。在考虑知识图谱的图结构时,可以将其视为一个图。当涉及到形式语义时,它可以作为对事实进行解释和推理的知识库。知
ABSTRACT (摘要)
- 人类的知识提供了对世界的正式理解。表示实体之间结构关系的知识图谱已成为认知和人类智能领域日益流行的研究方向。
- 在本调查中,我们提供了一个全面的回顾知识图谱涵盖了总体的研究主题:
- 知识图谱表示学习
- 知识的获取与完成
- 时间知识图谱
- 知识感知的应用
- 总结近期的突破和展望方向,以促进未来的研究。我们提出了关于这些主题的全视图分类和新的分类法。
- 知识图谱嵌入从 表示空间、评分函数、 编码模型 和 辅助信息 四个方面进行组织。
- 对于知识获取,特别是知识图补全,回顾了嵌入方法、路径推理和逻辑规则推理。我们进一步探讨了几个新兴主题,包括元关系学习、常识推理和时间知识图。
- 为了促进未来对知识图谱的研究,我们还提供了针对不同任务的数据集和开源库的精心收集。
- 最后,对今后的研究方法进行了展望
NOMENCLATURE (术语)
符号 | 含义 |
---|---|
G G G | 知识图谱 |
F F F | 事实集合 |
(h,r,t) | 三元组,头实体,关系,尾实体 |
(h,r,t) | 头实体,关系和尾实体的嵌入 |
r ∈ R R R, e e e ∈ ϵ \epsilon ϵ | 关系集与实体集 |
υ \upsilon υ ∈ V V V | 顶点集中的顶点 |
ξ ∈ E g \Epsilon_g Eg | 边集合中的边 |
e s e_s es, e q e_q eq, e t e_t et | 源实体,查询实体,当前实体 |
r q r_q rq | 查询关系 |
< w 1 w_1 w1,…, w n w_n wn > | 文本语料库 |
d ⋅ ( ⋅ ) d_{·}(·) d⋅(⋅) | 特定空间的举例度量 |
f r ( h , t ) f_r{(h,t)} fr(h,t) | 得分函数 |
σ ( ⋅ ) σ (·) σ(⋅), g ( ⋅ ) g(·) g(⋅) | 非线性激活函数 |
M r M_r Mr | 映射矩阵 |
M ^ \hat{M} M^ | 张量 |
L L L | 损失函数 |
R d \mathbb{R^d} Rd | d维空间实值空间 |
C d \mathbb{C^d} Cd | d维空间复值空间 |
H d \mathbb{H^d} Hd | d维空间超复空间 |
T d \mathbb{T^d} Td | d维环面空间 |
B c d \mathbb{B_c^d} Bcd | 曲率为c的d维双曲空间 |
N N N( μ \mu μ, σ 2 \sigma^2 σ2 I I I) | 高斯分布 |
<h,t> | 厄米点积 |
t ⊗ r t ⊗ r t⊗r | 汉密尔顿产品 |
h ∘ \circ ∘ t, h⊙t | 哈德玛(元素)积 |
h ⋆ \star ⋆ t | 圆相关性 |
concat(),[h,r] | 向量/矩阵连接 |
ω \omega ω | 卷积过滤器 |
∗ \ast ∗ | 卷子操作 |
1 INTRODUCTION(引言)
图1 是图库和知识图谱的例子。(a)知识库中的事实三重 (b)知识图谱中的实体和关系
-
整合人类知识是人工智能的研究方向之一。知识表示和推理是受人类问题解决的启发,将要为智能系统表示知识,使其获得解决复杂任务的能力
-
知识图谱作为一种结构化的人类知识形式受到了学术界和工业界的极大关注
-
知识图谱是事实的结构化表示,由实体、关系和语义描述组成。
- 实体可以是现实世界的对象和抽象概念
- 关系表示实体之间的关系,以及实体的语义描述,它们的关系包含具有定义良好的含义的类型和属性。
- 性能图或属性图被广泛使用,其中的节点和关系具有属性或属性。
-
知识图谱与知识库是同义的,只是有细微的区别。在考虑知识图谱的图结构时,可以将其视为一个图。当涉及到形式语义时,它可以作为对事实进行解释和推理的知识库。知识库和知识图谱的示例如图1所示
-
知识可以在资源描述框架(RDF)下以(头、关系、尾)或(主语、谓语、宾语)的形式以事实三重形式表达
-
例如(Albert Einstein, WinnerOf, Nobel Prize)。它也可以表示为一个有向图,节点作为实体,边作为关系。为简单起见,并遵循研究社区的趋势,本文交替使用术语知识图和知识库。
-
最近基于知识图谱的研究进展集中在 知识表示学习(KRL) 或 知识图谱嵌入(KGE) 上,通过将实体和关系映射到低维向量中,同时捕获它们的语义
-
具体的知识获取任务包括 知识图谱完善(KGC) 、 三重分类 、实体识别和关系提取。
-
知识感知模型 得益于异构信息、丰富的知识表示本体和语义以及多语言知识的集成。
-
因此,许多现实世界的应用,如推荐系统和问答系统,已经随着常识理解和推理的能力而繁荣起来。
-
一些现实世界的产品,如微软的Satori和谷歌的Knowledge Graph,已经显示出提供更高效服务的强大能力
-
本文对知识图谱的现有文献进行了全面的综述,这些文献为知识获取和知识感知应用提供了更多的上下文、智能和语义。我们的主要贡献总结如下
- 全面回顾:
- 我们全面回顾了知识图谱的起源和知识图谱关系学习的现代技术。
- 介绍并比较了知识图谱表示学习和推理的主要神经结构。
- 此外,还提供了不同领域中许多应用程序的完整概述
- 全视图分类和新分类法:
- 提出了知识图谱全视图分类研究和细粒度新分类法。
- 在高层次上,我们从KRL、知识获取、时态知识图谱和知识感知应用四个方面对知识图的研究进行了综述
- 对于KRL,我们进一步提出了四个视图的细粒度分类法,包括表示空间、评分函数、编码模型和辅助信息
- 在知识获取方面,本文从基于嵌入的排序、关系路径推理、逻辑规则推理和元关系学习四个方面对知识获取进行了综述;
- 实体获取任务分为实体识别、输入、消歧义和对齐;并根据神经范式对关系抽取进行了讨论
- 新兴进展广泛报道:
- 我们提供了对新兴主题的广泛报道,包括基于转换器的知识编码,基于图神经网络(GNN)的知识传播,基于强化学习(RL)的路径推理和元关系学习
- 总结和展望未来方向
- 本调查提供了每个类别的总结,并突出了未来有希望的研究方向
本调查的其余部分组织如下。
- 本调查提供了每个类别的总结,并突出了未来有希望的研究方向
- 全面回顾:
-
首先,知识图谱的概述,包括历史、符号、定义和分类,第二部分给出
-
在第三节中从四个范围讨论KRL
-
回顾第四节和第五节中知识获取和时序知识图谱的任务
-
第六节介绍了下游应用
-
最后,讨论了未来的研究方向,并在最后得出结论
-
其他信息,包括KRL模型训练和知识图数据集和开源实现的集合,可以在附录中找到
2 OVERVIEW(综述)
2.1 Brief History of Knowledge Bases(知识图谱简史)
- 知识表示在逻辑学和人工智能领域经历了漫长的发展历史。图形知识表示的思想最早可以追溯到1956年,当时是由Richens[10]提出的语义网的概念,而符号逻辑知识可以追溯到1959年的通用问题求解器[1]。
- 知识库首先与基于知识的系统一起用于推理和解决问题。MYCIN[2]是最著名的基于规则的医学诊断专家系统之一,拥有大约600条规则的知识库。
- 后来,人类知识表示领域出现了基于框架的语言、基于规则的表示和混合表示。
- 大约在这一时期的末期,Cyc项目开始了,旨在汇集人类的知识。RDF和Web Ontology Language (OWL)相继发布,成为语义网的重要标准。
- 随后,许多开放的知识库或本体相继发布,如WordNet、DBpedia、YAGO、Freebase等。
- Stokman和Vries[7]于1988年提出了结构知识在图中的现代概念。
- 然而,知识图谱的概念是在2012年由Google的搜索引擎首次推出后得到广泛普及的,并提出了名为knowledge Vault的知识融合框架[3]来构建大规模的知识图谱。
- 补充资料
附录A
中的图1展示了知识库历史的简要路线图。为了方便研究,已经发布了许多通用知识图谱数据库和特定领域知识库。 - 我们在补充材料的
附录F-A1
和F-A2
中介绍了更多的通用和特定领域的知识库。
2.2 定义和符号
- 大多数成效都是通过描述一般语义表示或基本特征来给出定义。然而,并没有这样一个被广泛接受的正式定义。
- Paulheim[11]为知识图定义了四个标准。
- Ehrlinger和Wöß[12]分析了现有的几种定义,提出了强调知识图推理引擎的
Definition 1
- Wang等人[5]在
Definition 2
中提出了一个多关系图的定义 - 根据之前的文献,我们将知识图定义为
G
=
E
,
R
,
F
G = {E, R, F}
G=E,R,F,其中
E
,
R
E, R
E,R和
F
F
F 分别是实体,关系和事实的集合。一个事实被表示为一个三元组
(
h
,
r
,
t
)
∈
F
(h,r,t)∈F
(h,r,t)∈F
Definition 1
:知识图谱获取信息并将其集成到本体中,并应用推理器派生新知识Definition 2
:知识图是由实体和关系组成的多关系图,实体和关系分别被视为节点和不同类型的边
- 具体的符号和它们的描述在命名法中列出。一些数学运算的细节在补充资料的
附录B
中有解释
2.3 Categorization of Research on Knowledge Graph(知识图谱的分类研究)
- 本研究对知识图谱的研究进行了全面的文献综述,即KRL、知识获取和广泛的下游知识感知应用,其中集成了许多最新的先进深度学习技术。
- 研究的总体分类如图2所示
-
知识表示学习 是知识图的一个重要研究课题,它为知识图的许多知识获取任务和下游应用铺平了道路。我们将KRL分为表示空间、评分函数、编码模型和辅助信息四个方面,为KRL模型的开发提供了清晰的工作流程。
-
具体成分包括
- (1)关系和实体被表示的表示空间
- (2)衡量事实三元组可信性的评分函数
- (3)表示和学习关系交互的编码模型;
- (4)将辅助信息纳入嵌入方法
-
表示学习包括点向空间、流形、复向量空间、高斯分布和离散空间。评分指标一般分为基于距离匹配和基于相似性匹配的评分函数。目前的研究重点是编码模型,包括线性/双线性模型、因子分解和神经网络
-
知识获取任务 分为KGC、关系提取和实体发现三大类。
-
第一个用于扩展现有的知识图,而另外两个用于从文本中发现新的知识(也称为关系和实体)
-
KGC分为以下几类:基于嵌入的排序、关系路径推理、基于规则的推理和元关系学习。
-
实体发现包括识别、消歧义、输入和对齐
-
关系提取模型利用注意机制、图卷积网络(GCNs)、对抗训练(AT)、强化学习(RL)、深度残差学习和迁移学习
- 时序知识图谱 包含时态信息用于表示学习。本研究将时间嵌入、实体动态、时间关系依赖和时间逻辑推理分为四个研究领域。
- 知识感知应用 包括自然语言理解(NLU)、问答、推荐系统和各种现实世界的任务,它们注入知识来改进表示学习。
2.4 Related Surveys(相关调查)
- 以往关于知识图谱的调研论文主要集中在统计关系学习[4]、知识图谱细化[11]、中文知识图谱构建[13]、知识推理[14]、KGE[5]、KRL[9]等方面。
- 后两项调查与我们的工作更相关。
- Lin等[9]以线性方式介绍了KRL,着重于定量分析。
- Wang等[5]根据评分功能对KRL进行了分类,并特别关注了KRL所利用的信息类型。它仅从评分指标的角度提供了当前研究的一般观点。
- 我们的调查更深入地研究了KRL的流程,并从四个方面提供了一个全面的视图,包括表示空间、评分函数、编码模型和辅助信息。
- 此外,本文还对知识获取和知识感知应用进行了全面的综述,并讨论了基于知识图的推理和少镜头学习等几个新兴主题。
3 KNOWLEDGE REPRESENTATION LEARNING(知识表示学习)
- KRL在文献中也被称为KGE、多关系学习和统计关系学习。
- 本节回顾了分布式表示学习的最新进展,其中实体和关系的丰富语义信息形成了四个范围,
- 表示空间(表示实体和关系,第III-A节)
- 评分函数(测量事实的合理性,第III-B节)
- 编码模型(建模事实的语义交互,第III-C节)
- 辅助信息(利用外部信息,第III-D节)
- 我们在第III-E节进一步提供总结
- KRL模型的训练策略在补充材料的附录D中进行了回顾
3-A Representation Space(表示空间)
图3所示 不同空间的知识表示示意图 (a)逐点空间 (b)复向量空间 ©高斯分布 d)流形空间
- 表示学习的关键问题是学习实体和关系的低维分布嵌入。
- 目前文献主要使用实值点向空间(见图3 a ),包括向量空间、矩阵空间、张量空间,也利用了复向量空间(见图3 b)、高斯空间(见图3 c)、流形空间(见图3 d )
- 嵌入空间应满足三个条件,即评分函数的可微性、计算可能性和可定义性
3-A-1 Pointwise Space(点向空间)
- 点向欧几里得空间被广泛应用于表示实体和关系,在向量或矩阵空间中投影嵌入关系,或捕获关系交互
- TransE[16] 表示d维向量空间中的实体和关系,即 h , t , r h,t, r h,t,r∈ R d \mathbb{R^d} Rd ,使嵌入遵循平移原则 h + r ≈ t h+r≈t h+r≈t
- 为了解决实体和关系的单一空间不足的问题, TransR[17] 进一步引入了实体和关系的分离空间。作者通过投影矩阵 M r M_r Mr∈ R k × d \mathbb{R^{k×d}} Rk×d 将实体 ( h , t h,t h,t∈ R k \mathbb{R^k} Rk) 投影到关系 (r∈ R d \mathbb{R^d} Rd) 空间中
- NTN[18] 通过双线性张量神经层跨多个维度对实体进行建模。头尾之间的关系交互 h T h^T hT M ^ \hat{M} M^ t 被捕获为一个张量,表示为 M ^ \hat{M} M^∈ R d × d × k \mathbb{R^{d×d×k}} Rd×d×k
- HAKE[19] 没有使用笛卡尔坐标系,而是通过将实体映射到极坐标系中来捕获语义层次,即实体嵌入 e m e_m em∈ R d \mathbb{R^d} Rd 和 e p e_p ep∈ [ 0 , 2 π ) d [0,2 π)^d [0,2π)d ,分别在模部和相位部
- 许多其他翻译模型,如TransH[20],也使用类似的表示空间
- 而语义匹配模型使用普通向量空间 (如HolE[21]) 和关系投影矩阵 (如ANALOGY[22])
- 这些翻译和语义匹配模型的原理分别在
III-B1节
和III-B2节
中介绍
3-A-2 Complex Vector Space(复数向量空间)
- 不使用实值空间,而是在复空间中表示实体和关系,其中 h , t , r h,t, r h,t,r∈ C d \mathbb{C^d} Cd
- 以头部实体为例,h有实部 R e ( h ) Re(h) Re(h) 和虚部 I m ( h ) Im(h) Im(h),即 h = R e ( h ) + i I m ( h ) h = Re(h)+i Im(h) h=Re(h)+iIm(h)
- ComplEx[23] 首先引入了如图3(d)所示的复向量空间,它既可以捕获对称关系,也可以捕获反对称关系。
- 厄米点积是用来复合头部和尾部的共轭关系的。受欧拉恒等式 e i θ = c o s θ + i s i n θ e^{iθ} = cos θ + i sinθ eiθ=cosθ+isinθ 的启发
- RotatE[24] 提出了一种旋转模型,将关系作为复空间中从头部实体到尾部实体的旋转, t = h ◦ r t = h ◦ r t=h◦r,其中◦表示元素Hadmard产品
- QuatE[25] 将复值空间扩展为具有三个虚分量的四元数 Q = a + b i + c j + d k Q = a + bi + cj+dk Q=a+bi+cj+dk ,将复值空间扩展为超复数 h , t , r ∈ H d h,t, r∈\mathbb{H^d} h,t,r∈Hd ,其中四元数内积即Hamilton积 h ⊗ r h⊗r h⊗r 作为头实体和关系的复合算子
- 随着复空间中旋转Hadmard积的引入, RotatE[24] 还可以捕获反转和组合模式,以及对称和反对称。
- QuatE[25] 使用Hamilton积来捕获实体和关系的四维空间内潜在的相互依赖性,并获得比 RotatE 更具表达性的旋转能力。
3-A-3 Gaussian Distribution(高斯分布)
- 受高斯词嵌入的启发,基于密度的嵌入模型 KG2E[26] 引入高斯分布来处理实体和关系的(非)确定性。
- 作者将实体和关系嵌入到多维高斯分布 H ~ N H~N H~N( μ h \mu_h μh, ∑ h \sum_h ∑h) 和 T ~ N T~N T~N( μ h \mu_h μh, ∑ t \sum_t ∑t) 中
- 平均向量 u u u 表示实体和关系的位置,协方差矩阵 ∑ \sum ∑ 建模它们的(不)确定性。
- 根据平移原理,实体变换 H − T H-T H−T 的概率分布表示为 P e ~ {P_e}~ Pe~N ( μ h μ_h μh− μ t μ_t μt, ∑ h \sum{h} ∑h + ∑ t \sum{t} ∑t)
- 类似地,TransG[27] 表示具有高斯分布的实体,而它为关系嵌入绘制了混合高斯分布,其中关系 r r r的第m个分量平移向量表示为 u r , m u_{r,m} ur,m = t − h t−h t−h~ N ( u t N ( u_t N(ut − u h u_h uh,( σ h 2 \sigma_h^2 σh2 + σ t 2 \sigma_t^2 σt2)E)
3-A-4 Manifold and Group(流形和组)
- 本节回顾了流形空间、李群和二面体群中的知识表示。
- 流形是一种拓扑空间,可以用集合理论将其定义为具有邻域的点的集合。
- 群是用抽象代数定义的代数结构。以往的点向建模是一个病态代数系统,其中得分方程的数量远远超过实体和关系的数量。
- 此外,即使在一些具有子空间投影的方法中,嵌入也受到过于严格的几何形式的限制。
- 为了解决这些问题,ManifoldE[28] 将点向嵌入扩展为基于流形的嵌入。作者介绍了两种基于流形的嵌入方式,即球面和超平面。球体的例子如图3(d)所示。
- 对于球面设置,采用再现核希尔伯特空间来表示流形函数。引入了另一种“超平面”设置,通过交叉嵌入增强模型。
- ManifoldE[28] 将实值点向空间松弛为从几何角度更具表现力的流形空间。当流形函数和特定于关系的流形参数设置为零时,流形将折叠成一个点
- 双曲空间,一个具有恒定负曲率的多维黎曼流形—c (c > 0):: B d , c \mathbb{B^{d,c}} Bd,c = {x∈ R d \mathbb{R^d} Rd: ∣ ∣ x ∣ ∣ 2 ||x||^2 ∣∣x∣∣2 < (1/c)} ,因其捕获层次信息的能力而受到关注。
- MuRP[29] 表示双曲空间 B c d \mathbb{B_c^d} Bcd = {x∈ R d \mathbb{R^d} Rd: c ∣ ∣ x ∣ ∣ 2 ||x||^2 ∣∣x∣∣2 < 1} 中的多关系知识图,但它无法捕获逻辑模式且存在常曲率
- Chami等[30] 利用表达性双曲等距,学习了双曲空间中特定于关系的绝对曲率 c r c_r cr。
- TorusE[15] 通过嵌入一个n维环面空间来解决TransE的正则化问题,而n维环面空间是一个紧李群。
- 将向量空间到环面空间的投影定义为 π π π: R n \mathbb{R^n} Rn → T n \mathbb{T^n} Tn, x→[x] ,将实体和关系记为 [ h ] , [ r ] , [ t ] [h],[r],[t] [h],[r],[t]∈ T n \mathbb{T^n} Tn
- 与TransE类似,它也学习环面空间中关系平移后的嵌入,即 [ h ] + [ r ] ≈ [ t ] [h]+[r]≈[t] [h]+[r]≈[t] 最近, DihEdral[31] 提出了一种保留二维多边形的二面体对称群
- 它利用有限非阿贝尔群来有效地保持对称/偏对称、反演和复合的关系性质与二面体群中的旋转和反射性质
3-B Scoring Function(得分函数)
- 得分函数用于衡量事实的合理性,在基于能量的学习框架中也称为能量函数。
- 基于能量的学习旨在学习能量函数 E θ \Epsilon_θ Eθ (x)(参数化为θ,以 x x x为输入),并确保正样本的分数高于负样本
- 本文采用评分函数项进行统一。有两种典型的评分函数,即距离函数
[见图4(a)]
和基于相似性的函数[见图4(b)]
,用于衡量事实的合理性。 - 基于距离的评分函数通过计算实体之间的距离来衡量事实的合理性,其中广泛使用关系为 h + r ≈ t h + r≈t h+r≈t的瘾翻译。
- 基于语义相似度的评分通过语义匹配来衡量事实的合理性。
- 通常采用乘式,即 h T M r ≈ t T h^TM_r≈t^T hTMr≈tT ,在表示空间中将头部实体变换到靠近尾部的位置
图4所示。以TransE[16]和DistMult[32]为例,说明基于距离和基于相似性匹配的评分函数。(a)基于平移距离的TransE评分。(b)基于语义相似度的DistMult评分
3-B-1 Distance-Based Scoring Function(基于距离的评分分数)
- 基于距离的评分函数:一种直观的基于距离的方法是计算实体关系投影之间的欧几里得距离。
- 结构嵌入(SE)[8] 使用两个投影矩阵和 L 1 L1 L1距离来学习 S E SE SE
-
一个更广泛使用的原理是基于翻译的评分函数,它旨在通过将关系表示为从头到尾实体的翻译来学习嵌入
-
Bordes等[16] 通过假设 h + r h+r h+r的附加嵌入应该接近 t t t的嵌入,并在 L 1 L1 L1或 L 2 L2 L2约束下定义评分函数为,提出TransE
-
从那以后,人们提出了 TransE的许多变体和扩展。
- TransH[20] 将实体和关系投影到一个超平面中,
- TransR[17] 为实体和关系引入了单独的投影空间
- TransD[33] 通过投影向量 h p , t p , r p h_p, t_p, r_p hp,tp,rp∈ R n \mathbb{R^n} Rn 构建了动态映射矩阵 M r h M_{rh} Mrh = r p h p T + I r_ph_p^T + I rphpT+I和 M r T M_{rT} MrT = r p t p T + I r_pt_p^T + I rptpT+I
-
TransA[34] 通过取代欧几里得距离,使用马氏距离来实现更自适应的度量学习
-
以前的方法使用加性分数函数,TransF[35] 放宽了严格的翻译,使用点积为 f r ( h , t ) = ( h + r ) T t f_r(h,t) = (h+r) ^Tt fr(h,t)=(h+r)Tt
-
为了平衡头部和尾部的约束,进一步提出了一种灵活的翻译评分函数。
-
最近, ITransF[36] 通过稀疏关注向量学习关系和概念之间的关联,实现了隐藏概念的发现和统计强度转移,评分函数定义为 f r ( h , t ) = ∣ ∣ α r H ⋅ D ⋅ h + r − α r T ⋅ D ⋅ t ∣ ∣ f_r(h,t) = ||α_r^H · D · h + r −α_r^T · D · t|| fr(h,t)=∣∣αrH⋅D⋅h+r−αrT⋅D⋅t∣∣
-
式中D∈ R n × d × d \mathbb{R^{n×d×d}} Rn×d×d为实体与关系的堆叠概念投影矩阵, α r H 、 α r T ∈ [ 0 , 1 ] n α^H_r、α^T_r∈[0,1]^n αrH、αrT∈[0,1]n为稀疏softmax计算的注意向量
-
TransAt[37] 将关系注意机制与平移嵌入相结合
-
TransMS[38] 通过非线性函数和线性偏置向量传递多向语义,评分函数为式子(4)
-
高斯空间中的 KG2E[26] 和具有流形的 ManifoldE[28] 也使用了基于平移距离的评分函数
-
KG2E采用非对称kl -散度和对称期望似然两种评分方法,而ManifoldE的评分函数定义为式子(5)
- 其中 M M M是流形函数, D r D_r Dr是特定于关系的流形参数
3-B-2 Semantic Matching(语义匹配)
- 另一个方向是计算语义相似度。 SME[39] 提出对 ( h , r ) (h,r) (h,r)和 ( r , t ) (r,t) (r,t)实体关系对的独立组合进行语义匹配。其得分函数定义为线性和双线性两种匹配块,即: f r ( h , t ) f_r(h,t) fr(h,t) = g l e f t ( h , r ) T g r i g h t ( r , t ) g_{left}(h, r)^Tg_{right}(r,t) gleft(h,r)Tgright(r,t) (6)
- 这个主要分两个部分,前半部分为单线性匹配模块,后半部分为双线性模块。
- DisMult[32] 通过将关系矩阵 M r M_r Mr限制为对角线进行多关系表示学习,提出了一种简化的双线性公式,定义为 f r ( h , t ) f_r(h,t) fr(h,t) = h T d i a g ( M r ) t h^Tdiag(M_r)t hTdiag(Mr)t (6)
-
为了捕获关系数据中的生产性交互并有效地进行计算,HolE[21]引入了循环关联的嵌入
-
它可以被解释为一个压缩张量积,来学习组合表示
-
通过定义一个微扰全息复合算子为 p ( a , b ; c ) = ( c ◦ a ) ∗ b p(a, b;c) = (c ◦ a) * b p(a,b;c)=(c◦a)∗b ,其中 c c c 为固定向量,扩展全息嵌入模型HolEx[40] 插值HolE与全张量积方法.它可以看作是扰动孔的线性串接。
-
以多关系推理为重点,ANALOGY[22] 对关系数据的类比结构进行建模。其评分函数定义为 f r ( h , t ) f_r(h,t) fr(h,t) = h T M r t h^TM_rt hTMrt
- 关系矩阵在线性映射中被约束为正规矩阵,即
M
r
T
M
r
M_r^TM_r
MrTMr =
M
r
M
r
T
M_rM_r^T
MrMrT 用于类比推理
- 关系矩阵在线性映射中被约束为正规矩阵,即
M
r
T
M
r
M_r^TM_r
MrTMr =
M
r
M
r
T
M_rM_r^T
MrMrT 用于类比推理
-
在频域进行傅里叶变换的HolE可以看作是ComplEx的一种特例[41],它连接了全息嵌入和复杂嵌入
-
类比嵌入框架[22]通过限制嵌入维数和评分函数,可以恢复或等价地获得DistMult、ComplEx、HolE等多个模型。
-
CrossE[42]引入交叉交互,交互矩阵 C C C∈ R n r × d \mathbb{R^{n_r×d}} Rnr×d 来模拟实体与关系之间的双向交互
-
通过查找相互作用矩阵 c r = x r T C c_r = x_r^TC cr=xrTC 得到关系特定的相互作用
-
将交互表示和匹配与尾部嵌入相结合,定义得分函数为 f ( h , r , t ) = σ t a n h ( c r ◦ h + c r ◦ h ◦ r + b ) t T f (h,r,t) = σtanh(c_r ◦ h + c_r ◦ h ◦ r + b)t^T f(h,r,t)=σtanh(cr◦h+cr◦h◦r+b)tT
-
语义匹配原理可以用神经网络编码,我们将在
第III-C节
中进一步讨论
上文第III-A4节
提到的两种分组表示方法也遵循语义匹配原则。TorusE[15] 的评分函数定义为 ( x , y ) ∈ ( [ h ] + [ r ] ) × [ t ] ) m i n ^ {min}_{(x,y)∈([h]+[r])×[t])} (x,y)∈([h]+[r])×[t])min ∥ x − y ∥ \Vert x - y \Vert ∥x−y∥ i _i i- 通过将2L关系建模为群元素,将 DihEdral[31] 评分函数定义为各分量的总和
- f r ( h , t ) f_r(h,t) fr(h,t) = h T R t h^TRt hTRt= ∑ l = 1 L h ( l ) T R ( l ) t ( l ) \sum_{l=1}^Lh^{(l)T}R^{(l)}t^{(l)} l=1∑Lh(l)TR(l)t(l) (11)
- 其中关系矩阵R对于 R ( l ) R^{(l)} R(l)∈ D K \mathbb{D_{K}} DK 定义为块对角线形式,对于 h ( l ) h^{(l)} h(l) 和 t ( l ) t^{(l)} t(l)∈ R 2 \mathbb{R^2} R2 ,实体嵌入实值空间
3-C Encoding Models(编码模型)
- 本节介绍通过特定模型架构对实体和关系的交互进行编码的模型,包括线性/双线性模型、分解模型和神经网络
- 线性模型通过将头部实体投射到靠近尾部实体的表示空间中,将关系表述为线性/双线性映射
- 分解的目的是将关系数据分解为低秩矩阵进行表示学习
- 神经网络通过匹配实体和关系的语义相似度,对具有非线性神经激活和更复杂网络结构的关系数据进行编码。介绍了几种神经模型在
图5
中
图5所示 神经编码模型的插图
- (a) CNN[43]将三元组输入到密集层并进行卷积运算,学习语义表示。
- (b) GCN[44]作为知识图的编码器,产生实体和关系嵌入。
- (c ) RSN[45]对实体-关系序列进行编码,并区分跳过关系。
- (d)基于transformer的CoKE[46]将三元组编码为序列,其中实体由[MASK]代替。
3-C-1 Linear/Bilinear Models(线性/双线性模型)
- 线性/双线性模型通过应用线性操作对实体和关系的交互进行编码或者像(8)那样的双线性变换
- 使用线性/双线性编码的规范方法包括SE[8]、SME[39]、DistMult[32]、ComplEx[23] 和 ANALOGY[22]。对于具有L2正则化的 TransE[16] ,可以将评分函数展开为仅需进行一维向量线性变换的形式,即:公式13
- Wang等[47]研究了各种双线性模型,并通过引入普适和一致性的概念来评价它们的可表达性和关联性
- 通过实验进一步证明了多个线性模型的集成可以提高预测性能
- 最近,为了解决典型Polyadia分解中实体向量的独立嵌入问题,SimplE[48] 引入关系逆,计算 ( h , r , t ) (h,r,t) (h,r,t)和 ( t , r − 1 , h ) (t,r^{−1},h) (t,r−1,h)的典型Polyadia平均得分为 公式14
- 式中 r − 1 r^{-1} r−1 为倒置关系的嵌入。双线性族中的嵌入模型,如RESCAL、DistMult、HolE和ComplEx,可以在一定的约束下从一种模型转换为另一种模型[47]。
- 从因子分解的角度提出了更多的双线性模型,在 第III-C2节 进行了讨论
3-C-2 Factorization Models(分解模型)
- 分解方法将KRL模型表述为三个方向的张量X分解。张量分解的一般原理可以表示为 X h r t ≈ h T M r t X_{hrt}≈h^TM_rt Xhrt≈hTMrt ,其组成函数遵循语义匹配模式。
- Nickel等[49]提出了三向在知识图张量的每个关系片上进行rank-r分解RESCAL
- 对于m个关系中的第k个关系,X的第k个切片被分解为 X k ≈ A R k A T X_k ≈ AR_kA^T Xk≈ARkAT
- 作者进一步将其扩展为有效地处理实体属性[50]。
- Jenatton等[51]随后提出了双线性结构化潜在因素模型(LFM),通过分解 R k R_k Rk = ∑ i = 1 d α i k u i v i T \sum^d_{i=1} α^k_iu_iv_i^T ∑i=1dαikuiviT 对RESCAL进行扩展。
- 通过引入三向Tucker张量分解,Tucker[52] 通过输出一个核心张量并嵌入实体和关系的向量来学习嵌入。LowFER[53] 提出了一种多模态分解双线性池化机制,以更好地融合实体和关系。它推广了 TuckER模型 ,并且具有低秩近似的计算效率
3-C-3 Neural Networks(神经网络)
-
神经网络编码语义匹配在近年来的研究中取得了显著的预测效果;
-
具有线性/双线性块的编码模型也可以使用神经网络建模,例如, SME [39] ;代表性的神经模型包括 多层感知器(MLP)[3] 、神经张量网络(NTN)[18] 和 神经关联模型(NAM)[54]
-
它们通常将实体或关系或两者都输入深度神经网络,并计算语义匹配分数
-
MLP[3] 将实体和关系一起编码成一个完全连接的层,并使用sigmod激活函数的第二层来给三元组打分。即 式子16
- 其中 W ∈ R n ✖ 3 d W∈R^{n✖3d} W∈Rn✖3d 的权重矩阵, [ h , r , t ] [h,r,t] [h,r,t] 是三个向量的串接
-
NTN[18] 将实体嵌入作为关联关系张量的输入,输出预测分数为式子17
- 其中 b r b_r br∈ R k \mathbb{R^k} Rk是关系r的偏差, M r r , 1 Mr{r,1} Mrr,1和 M r , 2 M_{r,2} Mr,2是关系特定的权重矩阵。它可以看作是MLPs和双线性模型的结合。
-
NAM[54] 将隐藏编码与尾部实体的嵌入联系起来,提出了关系调制神经网络(RMNN)
3-C-4 Convolutional Neural Networks(卷积神经网络)
-
CNN被用来学习深度表达特征。ConvE[55] 通过对嵌入和多层非线性特征进行二维卷积来建模实体和关系之间的相互作用,将头部实体和关系重塑为二维矩阵,即对于 d = d w × d h d = d_w×d_h d=dw×dh, M h M_h Mh∈ R d w × d h \mathbb{R^{d_w×d_h}} Rdw×dh, M r M_r Mr∈ R d w × d h \mathbb{R^{d_w×d_h}} Rdw×dh
-
其评分函数定义为 式子18
- ω是卷积滤波器,vec是矢量化操作将张量重塑为向量
- ConvE通过多层非线性特征学习来表达语义信息
-
ConvKB[43] 采用CNN对实体和关系的拼接进行编码,不进行重构[见图5(a)]。
-
其评分函数定义为 式子19
- 对卷积生成的特征映射集进行串联,提高了潜在特征的学习能力
-
与捕获局部关系的 ConvE 相比,ConvKB 保持了过渡特征,并表现出更好的实验性能
- HypER 使用超级网络 H H H 用于一维关系特定卷积滤波器的生成,实现多任务知识共享,同时简化二维卷积。
- 当以超网络和权矩阵为张量时,也可以解释为张量分解模型。
3-C-5 Recurrent Neural Networks(递归神经网络)
- 如上所述,基于MLP和CNN的模型学习三层表示。相比之下,循环网络可以捕获知识图中的长期关系依赖
- Gardner等人[57]和Neelakantan等人[58] 分别在关系路径上提出了基于RNN的模型来学习没有实体信息和有实体信息的向量表示
- RSN[45][见图5©] 设计了一种循环跳过机制,通过区分关系和实体来增强语义表示学习
- 关系路径为 ( x 1 , x 2 , … , x T ) (x_1, x_2,…,x_T) (x1,x2,…,xT) 通过随机游走生成实体和关系顺序交替的,进而计算循环隐藏状态 h t = t a n h ( W h h t − 1 + W x x t + b ) h_t = tanh(W_hh_{t−1} + W_xx_t + b) ht=tanh(Whht−1+Wxxt+b)
- 游走的操作可以定义为式子20
3-C-6 Transformers
- 基于Transformer的模型促进了上下文文本表示学习。
- 为了利用知识图谱中的上下文信息,CoKE[46] 使用变压器对边缘和路径序列进行编码。
- 同样,KG-BERT[59]借鉴了语言模型预训练的思想,将BERT模型作为实体和关系的编码器
3-C-7 Graph Neural Networks(图神经网络)
-
在编码器-解码器框架下,引入GNN学习连接结构。R-GCN[60] 提出了特定于关系的转换来模拟知识图的有向性。其前向传播定义为
式子21
- 其中, x i ( l ) x_i^{(l)} xi(l) ∈ R d ( l ) \mathbb{R^{d(l)}} Rd(l) 为第 l l l层第 i i i个实体的隐藏状态, N i r N^r_i Nir为关系 r ∈ R r∈R r∈R内第 i i i实体的邻居集, W r ( l ) W^{(l)}_r Wr(l)和 W 0 ( l ) W^{(l)}_0 W0(l) 为可学习参数矩阵, c i , r c_{i,r} ci,r 为归一化,如 c i , r = ∣ N i r ∣ c_{i,r} = |N^r_i | ci,r=∣Nir∣
-
在这里,GCN[61] 作为一个图编码器。为了实现特定的任务,仍然需要开发编码器模型并将其集成到R-GCN 框架中。R-GCN 平等地取每个实体的邻域
- *SACN[44] 引入 加权GCN [见图5(b)],加权GCN定义了具有相同关系类型的两个相邻节点的强度,利用节点结构、节点属性和关系类型捕获知识图中的结构信息
- 译码模块ConvE -TransE 采用 ConvE模型 作为语义匹配度量,并保留翻译属性
- 通过将实体和关系嵌入与
C
核
C核
C核的卷积输出对齐为
M
(
h
,
r
)
M_{(h, r)}
M(h,r)∈
R
C
×
d
\mathbb{R^{C×d}}
RC×d ,定义其评分函数为
式子22
- Nathani等[62] 引入了以多头注意为编码器的图注意网络,通过输入实体和关系的嵌入连接来捕获多跳邻域特征
- CompGCN[63] 提出了在中心节点附近的每条边上的实体-关系组合操作,并推广了以前基于GCN的模型
3-D Embedding With Auxiliary Information(辅助信息嵌入)
- 多模态嵌入将外部信息(如文本描述、类型约束、关系路径和可视化信息)与知识图本身结合起来,以促进更有效的知识表示
3-D-1 Textual Description (文本描述)
- 知识图谱中实体的文本描述表示为 D = w 1 , w 2 , … , w n D = w_1, w_2,…,w_n D=w1,w2,…,wn,提供补充的语义信息
- 带文本描述的KRL面临的挑战是在同一空间中嵌入结构化知识和非结构化文本信息
- Wang等[64] 通过引入实体名称和维基百科锚,提出了两种对齐实体空间和词空间的对齐模型
- DKRL[65] 扩展了TransE[16],通过卷积编码器直接从实体描述中学习表征
- SSP[66] 通过将三元组和文本描述投射到语义子空间中来捕获它们之间的强相关性
- 联合损失函数在KGE与文本描述相结合时得到了广泛的应用
- Wang等[64] 采用了知识模型 L K L_K LK、文本模型 L T L_T LT 和对齐模型 L A L_A LA 的三分量损失 L = L K + L T + L A L = L_K + L_T + L_A L=LK+LT+LA
- SSP[66] 在文本描述中使用双分量目标函数
L
L
L =
L
e
m
b
e
d
L_{embed}
Lembed+
μ
L
t
o
p
i
c
\mu L_{topic}
μLtopic
- 嵌入特异性损失: L e m b e d L_{embed} Lembed
- 特定主题的损失: L t o p i c L_{topic} Ltopic
- 通过参数 μ \mu μ 进行交易
3-D-2 Type Information (类型信息)
- 实体用层次结构类或类型表示,因此用语义类型表示关系。
- SSE[67] 采用实体的语义类别,将属于同一类别的实体平滑嵌入语义空间。
- TKRL[68] 提出了实体投影矩阵的类型编码器模型,以捕获类型层次。注意到一些关系表示实体的属性,KR-EAR[69] 将关系类型分为属性和关系,并对实体描述之间的相关性进行建模。
- Zhang等[70] 用关系簇、关系和子关系的层次关系结构扩展了现有的嵌入方法
3-D-3 Visual Information (视觉信息)
- 可以利用视觉信息(如实体图像)来丰富KRL。
- 图像嵌入IKRL[71]包含基于跨模态结构和基于图像的表示,将图像编码到实体空间,并遵循翻译原则。
- 跨模态表示确保基于结构的表示和基于图像的表示处于相同的表示空间
- KRL还有很多辅助信息,比如属性、关系路径和逻辑规则。
- Wang等[5] 详细回顾了附加信息的使用。本文分别在
第IV-A2节
和第IVA4
节讨论了KGC框架下的关系路径和逻辑规则
3-D-4 Uncertain Information(不确定的信息)
- 知识图谱,如ProBase[72] 、NELL[73] 和ConceptNet[74],包含不确定信息,并将可信度评分分配给每个关系事实
- 与经典的确定性KGE相比,不确定嵌入模型旨在捕获表示关系事实可能性的不确定性。
- Chen等[75] 提出了一种不确定的KGE模型,以同时保留结构信息和不确定性信息,其中使用概率软逻辑来推断置信度得分
-
概率校准需要一个后处理过程来调整概率分数,使预测具有概率意义。
-
Tabacof和Costabello[76]**首先研究了闭世界假设下KGE的概率校准,揭示了校准良好的模型可以提高精度。
-
Safavi等[77] 进一步探讨了更具挑战性的开放世界假设下的概率校准
3-E Summary(总结)
- KRL在知识图谱的研究社区中至关重要。本节回顾了KRL的四个部分,其中包括表1中总结的几种现代方法,以及补充材料附录C中的更多内容。
- 总的来说,开发一个新的KRL模型要回答以下四个问题:
- 1)选择哪个表示空间
- 2)如何在特定空间中度量三元组的合理性
- 3)使用哪种编码模型对关系交互进行建模
- 4)是否利用辅助信息
- 最常用的表示空间是
基于欧几里得点的空间
,它将实体嵌入到向量空间中,并通过向量
、矩阵
或张量
来建模相互作用 - 其他表示空间,包括
复向量空间
,高斯分布
,流形空间
和群
,也进行了研究。 流形空间
与点向欧几里得空间
相比,具有点向嵌入宽松的优点。高斯嵌入
可以表达实体和关系的不确定性,以及多重关系语义。- 在
复向量空间
中嵌入可以有效地建模不同的关系连接模式,特别是对称/反对称模式。
- 表示空间在实体语义信息的编码和关系属性的获取中起着至关重要的作用。在开发表示学习模型时,应仔细选择和设计合适的表示空间,以匹配编码方法的性质,平衡表达性和计算复杂性。
- 基于距离度量的评分函数采用平移原理,语义匹配评分函数采用组合算子。
- 编码模型,特别是神经网络,在实体和关系的交互建模中起着至关重要的作用。双线性模型也受到了广泛的关注,一些张量分解也可以看作是这一类。
- 其他方法包括文本描述、关系/实体类型、实体图像和置信度评分等辅助信息。
最近的KRL模型摘要。详见附录c中的补充材料
4 KNOWLEDGE ACQUISITION(知识获取)
- 知识获取的目的是从非结构化文本和其他结构化或半结构化的资源中构建知识图谱,完成现有的知识图谱,发现和识别实体和关系。
- 构造良好的大规模知识图谱对许多下游应用程序很有用,并赋予知识感知模型以常识性推理能力,从而为人工智能铺平道路。
- 知识获取的主要任务包括关系提取、KGC和其他面向实体的获取任务,如实体识别和实体对齐(EA)。大多数方法分别制定KGC和关系提取。
- 然而,这两项任务也可以集成到一个统一的框架中。Han等[78] 提出了一种相互关注的知识图谱与文本数据融合的联合学习框架,解决了文本的KGC和关系提取问题。
- 也有很多其他任务关于知识获取。如三重分类[79]、关系分类[80]、开放知识富集[81] 等。在本节中,对知识获取技术的三种类型,即KGC、实体发现和关系提取进行了全面的回顾
4-A Knowledge Graph Completion(知识图谱完善)
-
由于知识图谱的不完备性,KGC被用于向知识图中添加新的三元组。典型的子任务包括链接预测、实体预测和关系预测
-
KGC的初步研究主要集中在学习用于三重预测的低维嵌入。在本调查中,我们将这些方法称为基于嵌入的方法。
-
然而,它们中的大多数都未能捕捉到多步骤关系。因此,最近的工作转向探索多步骤关系路径和合并逻辑规则,分别称为 关系路径推理 和 基于规则的推理
-
三重分类作为KGC的一项相关任务,它评估事实三重的正确性,在本节中还将进行复习
4-A-1 Embedding-Based Models(基于嵌入模型)
- 以实体预测为例,基于嵌入的排序方法
如图6(a)
所示,首先基于已有三元组学习嵌入向量。 - 通过用每个实体 e ∈ ϵ e∈\epsilon e∈ϵ替换尾实体或头实体,这些方法计算所有候选实体的分数,并对前 k k k个实体进行排名。
- 前面提到的KRL方法(如TransE[16]、TransH[20]、TransR[17]、HolE[21]、R-GCN[60])和联合学习方法(如带有文本信息的DKRL[65])都可以用于KGC。
- 与在统一嵌入空间中表示输入和候选不同,ProjE[82] 提出了输入三元组的已知部分 ( h , r , ? ) (h,r,?) (h,r,?)或 ( ? , r , t ) (?,r,t) (?,r,t) 以及候选实体的空间投影组合嵌入,候选实体矩阵 W c W_c Wc∈ R s × d \mathbb{R^{s×d}} Rs×d ,其中 s s s 为候选实体的个数
- 嵌入投影函数,包括一个神经组合层和一个输出投影层。被定义为 h ( e , r ) = g ( W c σ ( e ⊕ r ) + b p ) h(e, r) = g(W^cσ (e⊕r) + b_p) h(e,r)=g(Wcσ(e⊕r)+bp),其中 e ⊕ r = D e e + D r r + b c e⊕r = D_ee + D_rr + b_c e⊕r=Dee+Drr+bc 是输入实体-关系对的组合算子。
- 以往的嵌入方法不区分实体和关系预测,ProjE 也不支持关系预测。
- 基于这些观察,SENN[83] 通过引入统一神经共享嵌入,该神经共享嵌入具有自适应加权一般损失函数。来学习不同的潜在特征,明确区分了三个KGC子任务。
- 现有的方法严重依赖于知识图中的现有连接,无法捕捉到事实知识或具有少量连接的实体的演变
- ConMask[84] 在实体描述上提出关系相关的内容屏蔽,以选择给定关系的相关片段,并基于CNN的目标融合,以完成不可见实体的知识图谱。
- 只有当查询关系和实体在文本描述中显式表示时,它才能进行预测。
- 以前的方法是依赖于预先准备好的实体对或文本语料库的判别模型。
- 针对医学领域,REMEDY[85] 提出了一种生成模型,称为条件关系变分自编码器,用于从潜在空间发现实体对
4-A-2 Relation Path Reasoning(关系路径推理)
- 实体和关系的嵌入学习在一些基准测试中取得了显著的成绩,但它无法对复杂的关系路径进行建模
- 关系路径推理转而利用图结构上的路径信息。随机漫步推理已被广泛研究
- 例如,路径排序算法(path-ranking algorithm, PRA)[86] 在路径约束组合下选择一条关系路径,并进行最大似然分类
- 为了改进路径搜索,Gardner等[57] 在随机行走中引入了向量空间相似启发式算法,将文本内容纳入随机行走中,这也缓解了PRA中的特征稀疏性问题
- 神经网络多跳关系路径建模也存在研究。Neelakantan等人[58] 开发了一个RNN模型,通过递归地应用组合性来组合关系路径的含义
[见图6(b)]
- 推理链(chain - of- reasoning)[87] 是一种神经注意机制,可以实现多个原因,它代表了所有关系、实体和文本之间的逻辑组合
- 最近,DIVA[88] 提出了一个统一的变分推理框架,该框架将多跳推理作为寻路(底层路径推理的先验分布)和路径推理(链路分类的似然)的两个子步骤。
(a)基于嵌入的排序 (b)关系路径推理[58]
4-A-3 RL-Based Path Finding(基于强化学习的寻径)
- 深度强化学习通过将实体对之间的寻路表述为顺序决策,特别是马尔可夫决策过程(MDP),引入多跳推理。
- 基于策略的强化学习,Agent通过知识图环境之间的交互来学习寻找扩展推理路径的关系,其中策略梯度用于训练强化学习代理
- DeepPath[89] 首先将强化学习应用于关系路径学习,并开发了一种新的奖励函数来提高准确性、路径多样性和路径效率
- 它对状态进行编码在连续的空间中,通过平移嵌入方法并以关系空间作为它的动作空间
- 类似地,MINERVA[90]通过最大化预期奖励,将路径行走到正确答案实体作为一个顺序优化问题。 它排除了目标答案实体,并提供了更有能力的推理。而不是使用二元奖励函数
- Multi-Hop[91] 提出了一种软奖励机制。在训练过程中,还采用了动作dropout来掩盖一些向外的边缘,以便更有效地进行路径探索
- M-Walk[92] 应用RNN控制器捕获历史轨迹,并使用蒙特卡罗树搜索(MCTS)进行有效的路径生成
- CPL[93] 利用文本语料库,将当前实体的句袋记为 b e t b_{et} bet,提出了从文本中寻路和提取事实的协同策略学习
- 源、查询和当前实体分别表示为 e s 、 e q 和 e t e_s、e_q和e_t es、eq和et,查询关系表示为 r q r_q rq
表2
总结了这些方法的MDP环境和策略网络,其中MINERVA 、M-Walk 和CPL 使用二元奖励- 对于策略网络,DeepPath 使用全连接网络,CPL 的提取器使用CNN,其余使用循环神经网络
基于rl的知识图推理寻径方法比较
4-A-4 Rule-Based Reasoning(基于规则推理)
- 为了更好地利用知识的符号性,KGC的另一个研究方向是逻辑规则学习。
- 规则由头部和主体以head←body的形式定义。
- 头部是一个原子,即具有可变主体和/或客体的事实,而身体可以是一组原子。
- 例如,给定关系
sonOf
、hasChild
和性别
以及实体X和Y
,则存在与逻辑编程相反形式的规则 - ( Y , s o n O f , X ) ← ( X , h a s C h i l d , Y ) ∧ ( Y , g e n d e r , M a l e ) (Y, sonOf, X) ← (X, hasChild, Y) ∧ (Y, gender, Male) (Y,sonOf,X)←(X,hasChild,Y)∧(Y,gender,Male)
- 逻辑规则可以通过规则挖掘工具提取,如 AMIE[94] 。最近的RLvLR[95] 提出了一种可扩展的规则挖掘方法,该方法具有高效的规则搜索和修剪,并使用提取的规则进行链接预测。
- 更多的研究关注于将逻辑规则注入嵌入以提高推理能力,通过联合学习或迭代训练来整合一阶逻辑规则。
- 例如,KALE[96] 提出了一个统一的联合模型,其中定义了t范数模糊逻辑连接,用于兼容三元组和逻辑规则嵌入。具体地说,定义了逻辑合取、析取和否定三种组合来构成复公式的真值
图7(a)示
一个简单的一阶Horn子句推理。RUGE[97] 提出了一种迭代模型,利用软规则对未标记三元组和标记三元组进行软标签预测,进行嵌入校正。
- IterE [98] 提出了一个包含嵌入学习、公理归纳和公理注入三部分的迭代训练策略。
- 逻辑规则是一种辅助信息;同时,它可以结合先验知识,实现可解释的多跳推理能力,并为在少量标记的关系三元组中进行泛化铺平了道路。
- 然而,逻辑规则本身只能覆盖知识图中有限数量的关系事实,并且会造成巨大的搜索空间。
- 神经和符号计算的结合具有互补的优势,可以利用有效的数据驱动学习和可微优化,并利用先验逻辑知识进行精确和可解释的推理。
- 将基于规则的学习整合到知识表示中,主要是向表示中添加正则化或约束。神经定理证明器(NTP)[99] 学习多跳推理的逻辑规则,它利用径向基函数核在向量空间上进行可微计算。
- **NeuralLP[100]**使基于梯度的优化应用于归纳逻辑编程,其中提出了一种将注意机制和辅助记忆相结合的神经控制器系统。
- Neural-Num-LP[101] 扩展了 NeuralLP ,通过动态规划和累积求和运算来学习数值规则。
- pLogicNet[102] 提出了概率逻辑神经网络
[见图7(b)]
,在处理逻辑规则不确定性的同时,结合马尔可夫逻辑网络和KRL方法的优势,利用一阶逻辑学习有效嵌入。 - ExpressGNN[103] 通过调优图网络和嵌入对pLogicNet 进行泛化,实现了更高效的逻辑推理
图片7 逻辑规则学习的实例(a) KALE[96] (b) pLogicNet[102]
4-A-5 Metarelational Learning(元学习)
- 知识图谱关系中存在长尾现象。与此同时,现实世界的知识场景是动态的,通常获得不可见的三元组
- 新的场景,被称为元关系学习或少量关系学习,要求模型只用很少的样本来预测新的关系事实。
- 针对前两个观察结果,GMatching[104] 开发了一种基于度量的基于实体嵌入和局部图结构的少镜头学习方法
- 利用R-GCN对一跳邻居进行编码获取结构信息,然后利用结构实体嵌入进行长短期记忆(LSTM)网络引导下的多步匹配,计算相似度得分
- MetaKGR[105] 是一种基于优化的元学习方法,采用模型不可知的元学习进行快速适应,采用强化学习进行实体搜索和路径推理。
- 受基于模型和优化的元收益的启发,MetaR[106] 将特定于关系的元信息从支持集转移到查询集,并通过高阶关系表示的损失梯度进行快速适应。
- Zhang等[107] 提出了异构图编码器、循环自编码器和匹配网络的联合模块,以较少的参考完成新的关系事实
- Qin等[108] 利用GAN在零次学习设置下对未见关系生成合理的嵌入
- Baek等人[109] 提出了一种换能型元学习框架,称为图外推网络(GENs),用于知识图中的几次图外链接预测。
4-A-7 Triple Classification(三元组分类)
- 三重分类是确定测试数据中的事实是否正确,通常被认为是一个二元分类问题
- 决策规则基于具有特定阈值的评分函数。上述嵌入方法可用于三重分类,包括基于翻译距离的方法,如TransH[20] 和TransR[17] ,以及基于语义匹配的方法,如NTN[18] 、HolE[21] 和 ANALOGY[22]
- 传统的基于向量的嵌入方法无法处理1对n的关系。
- Dong等人[79] 使用细粒度类型链,即树结构概念聚类,将嵌入空间扩展为基于区域的n维球,其中尾部区域位于头部区域,用于1对n的关系。
- 这种将嵌入放松到n个球的方法将三重分类转化为一个几何包含问题,并提高了具有长型链的实体的性能。
- 然而,它依赖于实体的类型链,并且存在可扩展性问题
4-B Entity Discovery(实体发现)
- 本节将基于实体的知识获取分为几个细分任务,即实体识别、实体消歧、==实体分类和 EA
- 我们将它们称为实体发现,因为它们都在不同的设置下探索与实体相关的知识
4-B-1 Entity Recognition(实体识别)
- 实体识别或命名实体识别(NER),当它专注于特定的命名实体时,是在文本中标记实体的任务。
- 手工制作的功能,如大写模式和特定于语言的资源,如地名表,在许多文献中都得到了应用
- 最近的研究应用了序列到序列的神经架构,例如 LSTM-CNN[110] ,用于学习字符和词级特征以及编码部分词汇匹配。
- Lample等[111] 通过 LSTM层 与CRF层 叠加提出了堆叠神经网络架构,即 LSTM-CRF[
图8(a)
] 和 Stack-LSTM - MGNER[112] 提出了一个集成框架,该框架具有不同粒度的实体位置检测和基于注意力的实体分类,可用于嵌套和非重叠的命名实体
- Hu等[113] 用多任务区分了多令牌和单令牌实体训练
- Li等[114] 通过引用标注指南来构建查询问题,将平面嵌套NER作为统一的机器阅读理解框架
- 带有知识图的预训练语言模型,如ERNIE[115]和K-BERT[116],已经应用于NER并取得了改进的性能
4-B-2 Entity Typing(实体类型)
- 实体类型包括粗粒度类型和细粒度类型,而细粒度类型使用树结构类型类别,通常被视为多类和多标签分类
- 为了减少标签噪声,PLE[117] 专注于正确的类型识别,并提出了一种带有异构图的部分标签嵌入模型,用于表示实体提及、文本特征和实体类型及其关系
- 为了解决排版和噪声标签日益增长的问题,Ma等人[118] 提出了原型驱动标签嵌入的分层信息,用于零采样细粒度命名实体类型
- 最近的研究利用了基于嵌入的方法。例如,JOIE[119] 学习实例视图图和本体视图图的联合嵌入,并将实体类型作为 t o p − k top-k top−k排序来预测相关概念
- ConnectE[120] 探索本地类型和全局三重知识来增强联合嵌入学习
4-B-3 Entity Disambiguation(实体消歧)
- 实体消歧或实体链接是一项统一的任务,它将实体提及与知识图谱中相应的实体联系起来
- 例如,爱因斯坦在1921年获得了诺贝尔物理学奖。提到“爱因斯坦”的实体应该与阿尔伯特·爱因斯坦的实体联系起来
- 当代的端到端学习方法已经通过实体和提及的表示学习做出了努力,例如,用于实体语义相关性建模的DSRM[121] 和用于实体和文本联合嵌入的EDKate[122]
- Ganea和Hofmann[123] 提出了一种基于局部上下文窗口的专注神经模型,用于实体嵌入学习和可微分消息传递,用于推断模糊实体
- 通过将实体之间的关系视为潜在变量,Le和Titov[124] 开发了一种端到端的神经结构,具有关系和提及规范化
4-B-4 Entity Alignment(实体对齐)
-
如前所述,这些任务涉及从文本或单个知识图中发现实体,而 EA 旨在融合各种知识图之间的知识。
-
给定E1和E2作为两个不同知识图的两个不同实体集
- EA是求一个对齐集 A A A = {( e 1 , e 2 e_1, e_2 e1,e2)∈ ϵ 1 \epsilon_1 ϵ1 × ϵ 2 \epsilon_2 ϵ2| ϵ 1 \epsilon_1 ϵ1≡ ϵ 1 \epsilon_1 ϵ1},其中实体 ϵ 1 \epsilon_1 ϵ1和实体 ϵ 1 \epsilon_1 ϵ1具有等价关系 ≡ ≡ ≡
- 在实践中,给出一小组对齐种子(即出现在不同知识图中的同义实体)来启动对齐过程,如图8(b) 的左框所示
-
基于嵌入的对齐计算一对实体的嵌入之间的相似性。 MTransE [125] 首先研究多语言场景下的EA。它考虑了基于距离的轴校准、平移向量和跨语言实体匹配和三重对齐验证的线性变换。
-
在基于平移和线性转换模型的基础上,IPTransE[126] 提出了一种迭代对齐模型,通过对齐平移为 e 1 e_1 e1 + r ( ϵ 1 → ϵ 2 ) r^{(\epsilon_1→\epsilon_2)} r(ϵ1→ϵ2)− e 2 e_2 e2,线性变换为 M ( ϵ 1 → ϵ 2 ) e 1 − e 2 M^{(\epsilon1→\epsilon2)} e1−e2 M(ϵ1→ϵ2)e1−e2,参数共享为 e 1 ≡ e 2 e1≡e2 e1≡e2,在联合嵌入框架下将实体映射到统一的表示空间 [见图8(b)]
-
为了解决迭代对齐中的误差积累问题,BootEA[127] 提出了一种增量训练的自举方法,以及一种用于检查新标记对齐的编辑技术
- 实体的附加信息也被纳入以进行细化,
- 例如,JAPE[128] 捕获跨语言属性之间的相关性,
- KDCoE[129] 通过共同训练嵌入多语言实体描述,
- MultiKE[130] 学习实体名称、关系和属性的多个视图,并与字符属性嵌入对齐[131]
- 近年来,EA 得到了广泛的研究。我们推荐详细阅读Sun等人的定量调查[132]
图8所示 几个实体发现任务的示例。(a)使用LSTM-CRF进行实体识别[111]。(b) EA与IPTransE[126]。
4-C Relation Extraction(关系抽取)
- 关系抽取是自动构建大规模知识图谱的关键任务,它从纯文本中抽取未知的关系事实并将其添加到知识图谱中。
- 由于缺乏标记的关系数据,远程监督[133] ,也称为弱监督或自我监督 ,通过假设包含相同实体提及的句子在关系数据库的监督下可以表达相同的关系,使用启发式匹配来创建训练数据。
- Mintz等[134] 采用了基于文本特征的远程监督关系分类,包括词法和句法特征、命名实体标签和连词特征。
- 传统方法高度依赖特征工程[134] ,最近有一种方法探索特征之间的内在相关性[135] 。
- 深度神经网络正在改变知识图和文本的表示学习。
- 本节回顾了神经关系提取(NRE)的最新进展,概述
如图9所示
。
图9 综述:NRE
4-C-1 Neural Relation Extraction(神经关系提取)
- Trendy神经网络广泛应用于神经关系提取。首先探索具有与实体相对距离的位置特征的CNN[136] 用于关系分类,然后通过*多窗口CNN[137] 与多个大小的 卷积滤波器 扩展到关系提取。
- 多实例学习以一组句子作为输入来预测实体对之间的关系
- PCNN[138] 在按实体位置划分的卷积表示段上应用分段最大池化
- 与传统的CNN[136] 相比,PCNN 可以更有效地捕获实体对内的结构信息
- MIMLCNN[139] 进一步将其扩展到使用跨句最大池化进行特征选择的多标签学习
- 类关系[140] 和关系路径[141] 等侧信息也被利用
- 还介绍了RNN ;例如,SDP-LSTM[142] 采用多通道LSTM,同时利用实体对之间的最短依赖路径
- Miwa和Bansal[143] 基于依赖树堆叠顺序和树结构LSTM
- BRCNN[144] 将捕获顺序依赖的RNN与使用双通道双向LSTM和CNN表示局部语义的CNN相结合
4-C-2 Attention Mechanism(注意力机制)
- 注意机制的许多变体都与CNN相结合,包括 词级注意 以捕获词的语义信息[145],以及对多个实例的选择性注意 以减轻噪声实例的影响[146]
- 为了丰富语义表示,还引入了其他侧信息
- APCNN[147] 引入了PCNN的实体描述和句子级注意,而HATT[148] 提出了分层选择注意,通过连接每个分层层的注意表示来捕获关系层次
- 与基于CNN的句子编码器不同,Att-BLSTM[80] 提出使用BiLSTM 进行词级注意
- Soares等[149] 利用深度变压器模型的预训练关系表示
4-C-3 Graph Convolutional Networks(图卷积网络)
- GCNs用于对句子的依赖树进行编码,或者学习KGE来利用关系知识对句子进行编码
- C-GCN[150] 是经过以路径为中心的修剪后的句子依赖树的上下文化GCN模型
- AGGCN[151] 也将GCN应用于依赖树,但以软加权方式利用多头关注进行边缘选择
- 与前两种基于GCN的模型 不同,Zhang等[152] 将GCN用于知识图中的关系嵌入,用于基于句子的关系提取
- 作者进一步提出了一种从粗到精的知识感知注意机制,用于信息实例的选择
4-C-4 Adversarial Training(敌对训练)
- 在 MIML学习设置 下,AT被用于向基于 CNN 和 RNN 的关系提取的词嵌入中添加对抗噪声[153]
- DSGAN[154] 通过学习一个句子级真正样本生成器和一个使生成器的真正概率最小化的鉴别器,对远程监督关系提取进行降噪
4-C-5 Reinforcement Learning(强化学习)
- RL最近通过使用策略网络训练实例选择器集成到NRE中
- Qin等[155] 提出训练出一个基于策略的句子关系分类器RL代理,将假阳性实例重新分配到负样本中,以减轻噪声数据的影响。作者将F1分数 作为评价指标,并使用基于F1分数性能变化作为策略网络的奖励。
- 同样,Zeng等[156]和Feng等[157] 提出了不同的奖励策略。基于RL的NRE的优点是关系提取器是模型不可知的。
- 因此,它可以很容易地适应于任何神经结构,以有效地提取关系
- 最近,HRL[158] 提出了一种高层关系检测和低层实体提取的分层策略学习框架
4-C-6 Other Advances(其他进展)
-
深度学习的其他进展也应用于NRE。注意到目前的NRE方法没有使用深度神经网络
-
Huang和Wang[159] 将深度残差学习应用于噪声关系提取,发现九层CNN的性能有所提高。
-
Liu等[160] 提出通过实体分类的迁移学习来初始化神经模型
-
协作式CORD[161] 通过双向知识蒸馏和自适应模仿,将文本语料库和知识图谱与外部逻辑规则进行集成。
-
TK-MF[162] 通过匹配句子和主题词来丰富句子表征学习
-
最近,Shahbazi等[163] 通过对几种解释机制(包括显著性、梯度×输入和移除一个)进行基准测试,研究了可信关系提取
4-C-7 Joint Entity and Relation Extraction(联合实体与关系抽取)
- 传统的关系提取模型采用管道方法,首先提取实体提及,然后对关系进行分类。然而,管道方法可能会导致错误累积
- 一些研究表明,联合学习[143],[166] 比传统的管道学习方法具有更好的性能
- Katiyar和Cardie[167] 提出了一种基于注意力的LSTM网络的联合提取框架
- 一些将联合提取转换为不同的问题,例如通过一种新的标记方案进行序列标记[168]和多回合问答[169]
- 在处理实体对和关系重叠方面仍然存在挑战[170]
- Wei等[171] 提出了一种级联二元标注框架,将关系建模为主客体映射函数来解决重叠问题
- 在联合学习框架中,训练和推理之间存在分布差异,导致暴露偏差
- 最近,Wang等人[172] 提出了一种单阶段联合提取框架,将联合实体和关系提取转化为令牌对链接任务,以减轻误差传播和暴露偏差。
- 与通常认为联合模型可以通过捕获实体和关系的相互作用来缓解错误积累的观点相反,Zhong和Chen[173] 提出了一种简单的基于管道但有效的方法来学习实体和关系的两个独立编码器,揭示了强上下文表示可以保留实体和关系的鲜明特征。
- 未来的研究需要重新思考管道与联合学习方法之间的关系
4-D Summary(总结)
- 本节回顾不完整知识图的知识补全和从纯文本获取。
- KGC在给定实体和关系查询的情况下完成现有实体之间缺失的链接或推断实体。
- 基于嵌入的KGC方法通常依赖于三重表示学习来捕获语义并完成候选排序。
- 基于嵌入的推理仍然停留在个体关系层面,在复杂推理中表现不佳,因为它忽略了知识图谱的符号化性质和缺乏可解释性
- 符号和嵌入的混合方法结合了基于规则的推理,克服了知识图的稀疏性,提高了知识图谱嵌入的质量,促进有效的规则注入,并诱导可解释的规则
- 通过观察知识图的图形性,研究了 路径搜索 和 神经路径表示学习
- 然而,它们在遍历大规模图时存在连通性不足的问题。
- 元关系学习的新方向是在低资源环境下学习对不可见关系的快速适应
- 实体发现从文本中获取面向实体的知识,并在知识图之间进行知识融合。
- 根据具体设置有几个类别。以序列到序列的方式探索实体识别,实体类型讨论了噪声类型标签和零射击类型。
- 实体消歧和对齐学习统一嵌入,提出了迭代对齐模型,以解决有限数量的对齐种子问题。
- 但是,如果新对齐的实体性能不佳,则可能面临错误积累问题。
- 近年来,特定语言知识不断增加,从而激发了跨语言知识对齐的研究
- 在远程监督的假设下,关系抽取存在噪声模式,特别是在不同领域的文本语料库中。
- 因此,弱监督关系提取必须减轻噪声标记的影响。
- 例如,多实例学习将句子袋作为输入,注意机制[146] 通过对实例的软选择来减少噪声模式
- 而 基于强化学习 的方法将实例选择制定为硬决策
- 另一个原则是尽可能学习更丰富的表达
- 由于深度神经网络可以解决传统特征提取方法中的误差传播问题,因此该领域以基于DNN的模型为主,
如表3所示
NRE的新进展和最近进展的总结
5 TEMPORAL KNOWLEDGE GRAPH(时序知识图谱)
- 目前的知识图谱研究多集中在静态知识图谱上,知识图谱的事实不随时间变化,而对知识图谱的时间动态研究较少。
- 然而,时间信息是非常重要的,因为结构化的知识只存在于特定的时间内,而事实的演变遵循时间顺序。
- 近年来的 研究开始将时间信息引入到KRL和KGC中,与以往的静态知识图相比,将其称为时序知识图谱
- 同时学习时间嵌入和关系嵌入的研究已经取得了进展。动态网络嵌入的相关模型也启发了时间KGE。
- 例如,同时捕获时间拓扑结构和学习时间特征相互作用的时间图注意(TGAT)网络[174] 可能有助于保持知识图的时间感知关系
5 - A Temporal Information Embedding(时间信息嵌入)
- 在时间感知嵌入中,通过将三元组扩展为时间四元组 ( h , r , t , τ ) (h,r,t,τ) (h,r,t,τ) 来考虑时间信息,其中 τ τ τ提供有关事实发生时间的额外时间信息。
- Leblay和Chekol[175] 研究了时间注释三重的时间范围预测,并简单地扩展了现有的嵌入方法,例如TransE ,将基于向量的TTransE定义为
式子23
- Ma等[176] 也推广了现有的静态嵌入方法,并通过替换共享权值为Tucker的矢量和时间戳嵌入提出了ConT
- 时间范围四元组通过增加时间范围 [ τ s , τ e ] [τs,τe] [τs,τe] 来扩展三元组,其中 τ s τs τs 和 τ e τe τe 分别代表三元组有效周期的开始和结束,然后,当给定特定的时间戳 τ τ τ 时,可以从动态知识图中导出静态子图 G τ Gτ Gτ
- HyTE[177] 将时间戳作为超平面
w
τ
w_τ
wτ,将实体和关系表示为
- P τ ( h ) = h − ( w τ h ) w τ P_τ(h)= h−(w_τ^h)w_τ Pτ(h)=h−(wτh)wτ
- P τ ( t ) = t − ( w τ t ) w τ P_τ(t)= t−(w_τ^t)w_τ Pτ(t)=t−(wτt)wτ
- P τ ( r ) = r − ( w τ r ) w τ P_τ(r)= r−(w_τ^r)w_τ Pτ(r)=r−(wτr)wτ
- 临时投影的评分函数计算为
式子24
- 其中在 P τ ( h ) + P τ ( r ) ≈ P τ ( t ) P_τ (h) + P_τ (r)≈P_τ (t) Pτ(h)+Pτ(r)≈Pτ(t)的投影平移范围内
- García-Durán等[178] 将谓词令牌序列和时间令牌序列连接起来
- 并使用LSTM对连接的时间感知谓词序列进行编码。
- 将LSTM的最后一个隐藏状态作为时间感知关系嵌入rtemp
- 扩展TransE和DistMult的评分函数分别计算为 ∣ ∣ h + r t e m p − t ∣ ∣ 2 和 ( h ◦ t ) r t e m p T ∣ ∣ ||h+r_{temp}−t||_2和(h◦t)r^T_{temp}|| ∣∣h+rtemp−t∣∣2和(h◦t)rtempT∣∣
- 通过将实体e的上下文定义为包含e的事实集合,Liu等人[179] 提出了上下文选择,以捕获有用的上下文,并测量与所选上下文的时间一致性
- Lacroix等人[180] 通过将时间KGC表示为四阶张量补全,提出了扩展ComplEx分解并引入加权正则化器的 TComplEx
5-B Entity Dynamics(实体动力)
- 现实世界的事件会改变实体的状态,从而影响相应的关系。
- 为了改进时间范围推断,上下文时间轮廓模型[181] 将时间范围问题表述为状态变化检测,并利用上下文来学习状态和状态变化向量
- Goel等[182] 受历时词嵌入的启发,将实体和时间戳作为实体嵌入函数的输入,以保持实体在任何时间点的时间感知特征。
- Know-evolve[183] 是一个深度进化知识网络,研究实体的知识进化现象及其进化关系
- 采用多元时间点过程来模拟事实的发生,并建立了一种新的递归网络来学习非线性时间演化的表示
- 为了捕获节点之间的交互,RE-NET[184] 通过基于RNN的事件编码器和邻域聚合器对事件序列进行建模。
- 具体来说,RNN 用于捕获时间实体交互,邻域聚合器 对并发交互进行聚合
5-C Temporal Relational Dependence
- 在时间轴之后的关系链中存在时间依赖性,例如, w a s B o r n I n → g r a d u a t e F r o m → w o r k A t → d i e d I n wasBornIn→graduateFrom→workAt→diedIn wasBornIn→graduateFrom→workAt→diedIn【生于->毕业于->工作->死亡】
- Jiang等人[185],[186] 提出了时间感知嵌入,这是一种具有时间正则化的联合学习框架,用于整合时间顺序和一致性信息
- 作者将时间评分函数定义为
式子25
- 其中 T T T∈ R d × d \mathbb{R^{d×d}} Rd×d 是一个非对称矩阵,它编码关系的时间顺序,对于时间顺序关系对 < r k , r l > <rk,rl> <rk,rl>
- 通过整数线性规划的形式,进一步应用了不相交、有序和跨度三个时间一致性约束
5-D Temporal Logical Reasoning(时间逻辑推理)
- Chekol等[187] 探索了马尔可夫逻辑网络和概率软逻辑在不确定时间知识图上的推理。
- RLvLR-Stream[95] 考虑时间封闭路径规则,从知识图流中学习规则结构进行推理
6 KNOWLEDGE-AWARE APPLICATIONS(时间感知应用)
- 丰富的结构化知识对人工智能应用非常有用。
- 然而,如何将这些符号知识整合到实际应用的计算框架中仍是一个挑战
- 知识图的应用包括两个方面:
- (1)KG内应用,如链接预测和NER;
- (2)KG外应用,包括关系提取和更下游的知识感知应用,如问答和推荐系统。
- 本节介绍了最近几种基于DNN的知识驱动方法及其在自然语言处理和推荐方面的应用。
- 更多的其他应用,如数字健康和搜索引擎,在补充材料的
附录E
中介绍
6- A Language Representation Learning(语言表征学习)
- 通过自监督语言模型预训练进行语言表征学习已经成为许多自然语言处理系统不可或缺的组成部分
- 传统的语言建模不利用文本语料库中经常观察到的实体的事实知识
- 如何将知识融入到语言表达中已经引起了越来越多的关注
- 知识图语言模型(KGLM)[188] 通过选择和复制实体来学习呈现知识
- ERNIE-Tsinghua[189] 通过聚合预训练和随机掩蔽融合信息实体
- K-BERT[116] 将领域知识注入BERT上下文编码器
- ERNIE- baidu[190] 引入了命名实体掩蔽和短语掩蔽,将知识整合到语言模型中, ERNIE 2.0[115] 通过持续多任务学习对其进行了进一步改进
- 为了从文本中获取事实知识,KEPLER[191] 通过联合优化将知识嵌入和掩盖语言建模损失相结合
- GLM[192] 提出了一种隐含利用知识图的图导向实体掩蔽方案
- CoLAKE[193] 通过统一的词知识图和修改的转换器编码器进一步利用实体的知识上下文
- 与==K-BERT== 模型类似,BERT-MK[194] 将医学知识通过知识子图提取整合到预训练语言模型中
- Petroni等[195] 对大规模语言模型训练和知识图查询进行了反思,分析了语言模型和知识库
- 他们发现,某些事实性知识可以通过预训练语言模型获得
6- B Question Answering(问答系统)
- 基于知识图谱问答(KG-QA)用知识图谱中的事实回答自然语言问题
- 基于神经网络的方法在分布式语义空间中表示问题和答案,有些方法还对常识推理进行符号知识注入
6-B-1 Single-Fact QA(单一事实问答)
- 将知识图谱作为外部智力来源,简单事实QA或单事实QA是回答涉及单个知识图谱事实的简单问题
- Dai等[196] 提出了一种带有聚焦剪枝的条件聚焦神经网络来减少搜索空间
- BAMnet[197] 通过双向注意机制对问题与知识图谱之间的双向互动进行建模
- 虽然深度学习技术在KG-QA中得到了广泛的应用,但它不可避免地增加了模型的复杂性
- Mohammed等人[198] 通过对携带和未携带神经网络的简单KG-QA进行评估,发现复杂的深度模型,如具有启发式的LSTM和GRU,达到了最先进的水平,非神经模型也获得了相当好的性能
6-B-2 Multihop Reasoning(多跳推理)
- 为了处理复杂的多跳关系,需要更专门的设计来实现多跳常识推理
- 结构化知识提供了丰富的常识性观察结果,并作为关系归纳偏差,促进了多跳推理中符号和语义空间之间常识性知识融合的研究。
- Bauer等人[199] 提出了多跳双向注意和指针生成器解码器,通过从ConceptNet 中选择关系路径并注入选择性门控注意,利用外部常识性知识进行有效的多跳推理和连贯的答案生成。
- 变分推理网络(VRN)[200] 利用推理图嵌入进行多跳逻辑推理,同时处理主题实体识别中的不确定
- KagNet[201] 执行概念识别,从ConceptNet构建模式图,并通过GCN、LSTM和分层路径关注学习 基于路径的关系表示
- CogQA[202] 结合隐式提取和显式推理,提出了一种基于BERT和GNN 的多跳QA认知图模型
6-C Recommender Systems(推荐系统)
- 将知识图谱作为外部信息集成,使推荐系统具有常识推理能力,有可能解决稀疏性问题和冷启动问题。
- 通过注入基于知识图谱的侧信息,如实体、关系和属性,许多人致力于基于嵌入的正则化来改进推荐
- 协作式CKE[203] 通过平移式KGE模型和堆叠式自编码器共同训练KGE、条目文本信息和视觉内容
- 注意到对时间和话题敏感的新闻文章由浓缩的实体和共同知识组成
- DKN[204] 通过知识感知CNN模型与多通道词实体对齐的文本输入结合知识图谱
- 但是,DKN 需要提前学习实体嵌入,所以不能以端到端的方式进行训练
- 为了实现端到端训练,**MKR[205]**通过共享潜在特征和建模高阶项目-实体交互,将多任务知识图表示和推荐联系起来。
- 其他研究考虑的是知识图的关系路径和结构,**KPRN[206]**将用户与项目之间的交互视为知识图中的实体-关系路径,并利用LSTM在路径上进行偏好推理,以捕获顺序依赖关系。
- PGPR[207] 在基于知识图的用户-物品交互上执行强化策略引导的路径推理。
- KGAT[208] 将图注意网络应用于实体-关系图和用户-项目图的协作知识图上,通过嵌入传播和基于注意的聚合对高阶连接进行编码。
- 基于知识图谱推荐固有地处理知识图中带有多跳邻居的嵌入传播的可解释性
7 FUTURE DIRECTIONS(未来发展方向)
- 为了解决知识表示及其相关应用的挑战,已经进行了许多努力。
- 然而,仍然存在一些令人生畏的问题和有希望的未来方向。
7-A Complex Reasoning(复杂推理)
- 知识表示和推理的数值计算需要一个连续的向量空间来捕获实体和关系的语义
- 虽然基于嵌入的方法在复杂逻辑推理方面存在局限性,但关系路径和符号逻辑两个方向值得进一步探索
- 一些有前途的方法,如循环关系路径编码、基于GNN的消息传递知识图和基于RL的寻路和推理,是处理复杂推理的新兴方法
- 对于逻辑规则与嵌入的结合,最近的研究[102]、[103]将马尔可夫逻辑网络与KGE相结合,旨在利用逻辑规则并处理其不确定性
- 利用概率推理有效地捕获不确定性和领域知识将是一个值得关注的研究方向
7-B Unified Framework(统一框架)
- 知识图上的几种表示学习模型被证明是等价的
- 例如,Hayshi和Shimbo[41] 证明了在特定约束条件下,HolE和ComplEx在数学上是等价的
- ANALOGY[22] 提供了几个代表性模型的统一视图,包括DistMult、ComplEx和HolE
- Wang等[47] 探讨了几种双线性模型之间的联系
- Sharma等人[209] 探索了对加性和乘法KRL模型的几何理解
- 大多数作品将知识获取KGC和关系提取用不同的模型分别表述
- Han等[78] 将两者置于同一屋檐下,提出了一种相互关注的知识图与文本信息共享的联合学习框架
- 对知识表示和推理的统一理解探索较少
- 然而,以类似于图网络的统一框架[210] 的方式对统一的研究将值得弥合研究差距
7-C Interpretability(可解释性)
-
知识表示和注入的可解释性是知识获取和实际应用的关键问题。已为可解释性作出初步努力。
-
ITransF[36] 使用稀疏向量进行知识传递,并使用注意力可视化进行解释。
-
CrossE[42] 通过使用基于嵌入的路径搜索来生成链接预测的解释,探索了知识图的解释方案。
-
然而,最近的神经模型在透明度和可解释性方面存在局限性,尽管它们取得了令人印象深刻的表现。
-
一些方法将黑盒神经模型和符号推理结合起来,通过引入逻辑规则来提高互操作性。
-
可解释性可以说服人们相信预测。因此,进一步的工作应该是可解释性和提高预测知识的可靠性
7-D Scalability(可伸缩性)
- 可扩展性在大规模知识图谱中是至关重要的。
- 在计算效率和模型表达性之间存在权衡,有限数量的作品应用于超过一百万个实体。
- 有几种嵌入方法使用简化来降低计算成本,例如用循环相关运算简化张量积[21]
- 然而,这些方法仍然难以扩展到数百万个实体和关系
- 使用马尔可夫逻辑网络的概率逻辑推理计算量大,难以扩展到大规模的知识图
- 最近的**神经逻辑模型[102]**中的规则是通过简单的暴力搜索生成的,这使得它在大规模知识图上的能力不足。
- ExpressGNN[103] 尝试使用**NeuralLP[100]**进行有效的规则归纳
- 然而,要处理复杂的深度架构和日益增长的知识图谱,还有很长的路要走
7-E Knowledge Aggregation(知识聚合)
- 全局知识的聚合是知识感知应用的核心
- 例如,推荐系统使用知识图对用户-物品交互 和文本分类 进行建模,将文本和知识图编码为语义空间。
- 目前大多数知识聚合方法都设计了神经结构,如注意机制和GNN
- 自然语言处理社区已经从通过变形和变体(如BERT模型)进行大规模预训练中得到了推动。
- 同时,最近的一项研究发现[195] 表明,对非结构化文本的预训练语言模型可以获得一定的事实性知识。
- 大规模预训练是一种注入知识的直接方式
- 然而,重新思考一种有效的、可解释的知识聚合方式也是有意义的
7-F Automatic Construction and Dynamics(自动构造与动态)
- 目前的知识图谱高度依赖于人工构建,这是一种劳动密集型且昂贵的方法
- 知识图谱在不同认知智能领域的广泛应用要求从大规模非结构化内容中自动构建知识图谱
- 目前的研究主要是在已有知识图的监督下进行半自动构建。面对多模态、异构化和大规模应用,自动化建设仍面临巨大挑战
- 主流的研究集中在静态知识图上,在预测时间范围有效性、学习时间信息和实体动态方面有一些工作
- 许多事实只在特定时期内成立。动态知识图与动态学习算法相结合,可以解决传统知识表示和推理的局限性
8 CONCLUSION(结论)
- 知识图作为人类知识的集合体,近年来随着KRL、知识获取方法和各种知识感知应用的出现,越来越受到人们的关注。
- 本文从以下四个方面进行了全面的研究
- KGE,从嵌入空间、评分指标、编码模型、外部信息嵌入、训练策略等方面进行了全面的系统综述;
- 从嵌入学习、关系路径推理和逻辑规则推理三个角度获取实体发现、关系提取和图补全的知识;
- 时态知识图表示学习与补全;
- 在NLU上的真实知识感知应用;
- 推荐系统、问答和其他各种应用程序。
- 此外,还介绍了一些有用的数据集资源和开源库,并对未来的研究方向进行了讨论。
- Knowledge Graph拥有一个大型的研究社区,拥有广泛的方法和应用。
- 我们进行这项调查是为了总结当前有代表性的研究成果和趋势,并希望它能促进未来的研究
更多推荐
所有评论(0)