基于多重图表示的事件抽取新方法
背景介绍: 事件抽取是自然语言处理领域的一个热门任务,旨在从给定文本中识别出事件触发词及其相关论元。该任务通常分为事件检测(提取事件触发词)和论元抽取两个子任务。传统的pipeline方法是分开执行这两个子任务,但存在错误传递的问题。近年来,joint模型兴起,能够将两个子任务统一起来学习,避免错误传递,但仍然忽视了论元多路复用(argument multiplexing)问题。
论文简介: 本文提出了一种基于多重图(multigraph)表示的事件抽取框架。多重图允许两个节点之间存在多条并行边,能够很好地表示事件的语义结构,并解决论元多路复用问题。基于该框架,作者设计了一种端到端的多重图事件提取模型(MGREE),可以同时提取事件触发词、相关论元及其语义角色。
研究机构及作者:
本项研究由中国国家重点研发计划资助,由贵州大学文本计算与认知智能工程教育部重点实验室和西安交通大学计算机科学与技术系的研究人员合作完成。第一作者为贵州大学的黄辉,通讯作者为贵州大学的陈延平和覃永彬。
研究流程: (a) 将输入句子token化,使用BERT等预训练语言模型和Skip-gram词嵌入生成节点表示; (b) 构建N×N×K的三维张量,作为多重图表示,其中N为句子token数,K为标注类型数(包含事件类型、论元类型和语义角色类型); © 基于注意力机制学习每条边的置信得分,得到多重图表示; (d) 设计基于规则的事件解码算法,从多重图中提取事件触发词及其论元角色。
主要结果: 实验在ACE05等4个公开数据集上进行,MGREE模型在事件抽取任务上取得了最新最佳性能,F1值比现有最优模型提升约4%。分析实验表明,多重图表示有效解决了论元多路复用问题,提高了神经网络在事件抽取中的判别能力。
研究意义: (1) 提出了多重图表示,能有效表示事件语义结构,并解决论元多路复用难题; (2) 设计了端到端的事件抽取模型MGREE,取得了最新最佳性能; (3) 分析了多重图表示的优势,如表示能力、计算效率等。
创新之处: (1) 提出了多重图表示,首次解决了论元多路复用难题; (2) MGREE是第一个基于多重图表示的端到端事件抽取模型; (3) 分析实验验证了多重图表示在表示能力和计算效率上的优势。
该研究提出了一种创新的多重图事件表示方法,能有效解决论元多路复用难题,并设计了一种端到端的事件抽取模型,在公开数据集上取得了最佳性能,对事件抽取任务的发展具有重要意义。