【论文原文】:DESED: Dialogue-based Explanation for Sentence-level Event Detection

【作者信息】:Wei, Yinyi  ,Liu, Shuaipeng  ,Lv, Jianwei  ,Xi, Xiangyu  ,Yan, Hailei  ,Ye, Wei  ,Mo, Tong  ,Yang, Fan  ,Wan, Guanglu

论文:https://aclanthology.org/2022.coling-1.219.pdf
代码:https://github.com/ydongd/desed

博主关键词:对话解释,句子级事件检测

推荐论文:PAIE论文解读

 

 

摘要

最近许多句子级事件检测的工作都集中在丰富句子语义上,例如通过多任务或基于提示的学习。尽管效果非常好,但这些方法通常依赖于标签广泛的人工标注,或者需要领域专业知识来设计复杂的模板和规则。本文提出了一种新的基于对话解释的句子语义检测方法。通过基于对话的事件解释,我们指的是通过一致的信息密集型对话来解释事件,原始事件描述作为开始的话语。我们提出了三种简单的对话生成方法,然后将其输出输入混合注意力机制来表征补充事件语义。在两个事件检测数据集上的大量实验结果验证了我们方法的有效性,并为基于对话的解释范式提供了有前景的研究机会。

1、简介

句子级事件检测在事件检测中起着主导作用,对各种下游NLP任务具有重要意义。然而,由于信息有限,通常很难在一句话中准确地检测事件。因此,以往的句子级事件检测方法大多是通过增强句子语义进行改进,主要可以分为两个类别。第一类主要涉及通过多任务学习利用其他信息提取任务(例如,命名实体识别和关系提取)(Wadden et al, 2019; Lin et al, 2020; Van Nguyen et al, 2021)。然而,这些工作高度依赖于特定于任务的注释,需要花费大量人力。另一个流行的研究方向是利用预训练语言模型(PLMs),例如,通过基于提示的学习(Gao et al, 2021; Lee et al, 2021; Li et al, 2022; Hsu et al, 2022)。基于MRC的方法,将任务视为机器阅读理解任务(Liu et al, 2020; Li et al, 2020; Du and Cardie, 2020),也可以被视为提示型学习的弱版本。这些方法中的一个常见瓶颈在于它们依赖于领域专业知识和人力来设计复杂的模板和规则。

为了更有效和高效地增强句子语义,本工作提出使用生成模型以对话的形式为句子生成上下文信息,对话由特定主题上不同角色之间的多个话语组成。

作为两个动机示例,图1显示了两个真实世界的对话。在第一个例子中User_1的话语中,模型很容易被arrestprotesting诱导,从而将fired识别为attack事件,但随后的话语则被视为一个解释,fired是一个End-Position事件。在第二个例子中,对话提供了多个事件之间自然联系的线索,包括用户的身体感受、食物质量和对餐馆的抱怨。基于这两个例子,我们推测出对话在丰富事件背景方面比普通叙事文本的两个主要优点。一方面,对话比原句更一致(参见章节4.5和4.6)。另一方面,每个话语都是一个独立的语义单元,不需要额外的分割,这对于GPT-2生成的纯文本来说是不平凡的。更重要的是,这些话语之间的交互为精炼基于对话的上下文提供了空间。在本文中,我们将生成的事件描述对话引用为基于对话的解释,并将我们的方法称为DESED:基于对话解释的句子级事件检测。

 

为了生成语义丰富的基于对话的解释,我们提出了三种方法基于预训练的对话GPTs(Radford et al, 2018, 2019):(1)在原始句子上直接生成;(2)在原始句子上生成提示符;(3)对同一领域的对话数据进行进一步训练后生成。这三种方法如图2所示。请注意,我们使用的提示非常简单,相同的提示可以用于不同事件和数据集的对话生成中。相比之下,前面提到的基于提示的方法需要重新设计模板和提示,需要跨不同领域的专业知识。

 

为了利用生成的媒介信息,我们提出了三种方法:(1)利用PLMs的自注意力机制进行token级注意;(2)带有话语门的话语级注意;(3)两者结合的混合注意。我们在ACE2005和另一个基于我们自己策划的真实数据的事件检测数据集上进行实验。实验表明,该方法比以往的多任务和基于提示的方法具有较好的性能。

我们的主要贡献包括:

  • 我们提出了基于对话的解释,这是一种新的范式,通过对特定事件生成一致的对话来丰富事件检测的句子语义。
  • 我们提出了三种概念上简单的方法来生成基于对话的解释,并设计混合(token级和话语级)注意机制,在两个数据集上展示竞争结果。
  • 我们的实验表明,与简单的叙事上下文相比,对话更符合原始句子,包含更丰富的事件检测上下文知识,并且在特定领域中适当的提示或对话数据可以指导预训练的模型生成更好的以事件为中心的对话。

2、相关工作

 

2.1 句子级事件抽取

为了从句子中识别触发词并将触发词分类为事件类型,传统的基于特征的方法在很大程度上依赖于手工设计特征(Ahn, 2006; McClosky et al, 2011)。随着深度学习的发展,神经网络在事件检测中得到了广泛的应用。神经网络最常见的用途是token分类,它用各种神经方法对每个token进行编码和分类(Chen et al, 2015; Nguyen et al, 2016; Sha et al, 2018)。此外,基于图的 (Liu et al, 2018; Yan et al, 2019),多任务(Wadden et al, 2019; Lin et al, 2020; Van Nguyen et al, 2021; Lu et al, 2022),基于MRC的(Liu et al, 2020; Li et al, 2020; Du and Cardie, 2020), Seq2Seq-based(sequence -to - sequence -based) (Lu et al, 2021; Hsu et al, 2022; Paolini et al, 2021)的方法也被引入到句子级事件检测中。

2.2 基于提示学习

基于提示的学习旨在激发PLM的知识,为下游任务服务(Schick和Schütze, 2021)。单向语言模型(如GPTs (Radford et al, 2018, 2019))、双向语言模型(如BERT (Kenton and Toutanova, 2019))和混合语言模型(如BART (Lewis et al, 2020))都可以用作骨干网络。通过检索训练集中类似的实例或添加标签的手动定义(Gao et al, 2021; Lee et al, 2021; Kumar and Talukdar, 2021),或通过将信息提取任务转换为槽填充任务(Lu et al, 2021; Hsu et al, 2022; Li et al, 2022),基于提示的学习使PLMs具有任务的先验知识,从而有助于最终的性能。

2.3 基于生成对话系统

基于生成的对话系统可以产生非常多样化的回应,不局限于现有的语料库(Chen et al, 2017)。基于生成的模型利用gpt (Radford et al, 2018,2019)和大量对话数据,可以在不同语言上取得优异的结果(Zhang et al, 2020;Wang et al, 2020)。

3、方法

3.1 任务定义

在本文中,我们将句子级事件检测作为使用BIO标记格式的序列标记任务。给定一个触发事件EventType的触发词。每个token都被标记为B-EventTypeI-EventTypeO,表示该token位于触发词token的开始、内部或外部。

 

 

3.2 对话生成

一个预训连对话生成模型将被用于生成对话,对话生成的整体架构如图3所示。

 

 

3.2.1 直接生成

 

3.2.2 生成提示

为了使生成的对话更集中于特定的主题,我们建议在原句的末尾添加一个直接的提示符(例如:What event does the previous sentence describe?),即s = s +prompt。然后重复3.2.1中描述的过程,直到获得话语。

3.2.3 更长远的训练和生成

当为数据集提供对话数据时,可以根据该数据进行进一步的训练。对于包含个角色的对话数据,为了模拟不同角色的特征,对个不同的对话模型进行了针对角色的响应训练。在推理时,我们使用种不同的对话模型来生成不同角色的话语。图3的右侧显示了一个关于两个角色的对话生成示例。

3.3 开发对话信息

我们探索了不同的注意力机制在对话信息的序列标注。具体如图4所示。

 

 

3.3.1 token水平的注意力

通过使用双向语言模型同时编码原始句子和生成的话语的连接,我们可以利用自注意力机制和捕获中的长期依赖关系的能力。

 

3.3.2 话语级别的注意力

由于的不确定性,生成的话语可能是杂乱无章的。直接结合和应用自注意力机制会给原句的表示带来噪声。因此,我们提出使用话语注意力机制和话语门来将对话信息整合到原句的表示中

 

3.3.3 混合注意力

为了涵盖不同层次的注意,我们建议在token层和话语层同时使用注意力机制。为了得到token级注意的表示,将句子被送入中,。然后利用话语注意力机制和话语门计算对话状态,并将融合到中。最后对对应的融合表示进行token分类。

4、实验

数据集:ACE2005,FOSAED。

 
 

评估指标:Trig-I、Trig-C。

baseline:BILSTM-CRF,DMBERT,BERT,BERT_QA_TRIGGER,OneIE,FourIE,Text2Event,DEGREE,PILED,TANL,UIE。

实验结果

 

 

不同注意力机制对DESED的影响:

 

 

不同提示的影响

 

 

 

 

 

5、总结

在本文中,我们提出了一种新的基于对话的解释范式,来增强句子语义,并用于句子级事件检测。我们提出了三种概念简单的方法来为给定的原始句子生成对话,分别集中于随意对话、集中对话和特定领域的对话。为了有效地利用生成的对话,我们在不同的粒度级别上设计了混合注意力机制。大量的实验和分析表明,DESED在事件检测方面具有良好的性能。在未来,我们有兴趣以更可控的方式生成基于对话的解释,并将基于对话的解释扩展到其他任务。

Logo

AI·Earth

更多推荐