基于多重关系图注意网络的知识图谱实体类型连接嵌入

连接嵌入基于多重关系图注意力网络用于知识图谱实体类型识别

研究背景

当今,知识图谱(Knowledge Graphs, KGs)在各种基于KG驱动的AI相关领域中引起了越来越多的研究兴趣。大规模的知识图谱提供了丰富而有效的结构化信息,是多个智能应用的核心数据资源,如问答系统和网页搜索。通常,知识图谱中包含大量实体类型(Entity Typing)实例,以元组 ((e, t)) 的形式存在,其中 (e) 是实体,(t) 是其层次型类型。尽管现代知识图谱(如Freebase, YAGO和Google Knowledge Graph)取得了很大成功,但它们的覆盖范围仍远未完全和全面。例如,在FB15k数据集中,10%的具有/music/artist类型的实体没有/people/person类型。 这种关键问题引发了大量关于知识图谱实体类型识别(KGET)的研究,即预测KG中缺失的实体类型实例,这是知识图谱补全(KGC)的一个重要子任务。KGET对许多涉及类型的下游算法(如知识表示学习、实体链接、关系抽取和问答系统)有很大帮助。

论文来源

这篇论文由以下作者撰写:Yu Zhao, Han Zhou, Anxiang Zhang, Ruobing Xie, Qing Li(IEEE 会员)和 Fuzhen Zhuang(IEEE 会员)。作者分别来自如下机构:金融科技创新中心、四川省金融智能与金融工程重点实验室西南财经大学、Baidu Inc.、卡内基梅隆大学计算机科学学院、微信搜索产品中心、腾讯、人工智能研究所和北航计算机科学学院。本文发表于 2023 年 5 月的 IEEE Transactions on Knowledge and Data Engineering 期刊上。

研究详细信息

工作流程

本文的研究方法包括构建异构关系图(HRG),并提出多重关系图注意力网络(MRGAT)在HRG上进行学习,之后使用连接嵌入模型(ConnectE)进行实体类型推理。具体流程包括以下几个关键步骤:

  1. 构建异构关系图(HRG): 为了有效整合KG中现有的异构结构信息(如实体类型元组和实体关系三元组),构建包含三种不同但相关的语义子图的HRG,每个子图编码实体和实体类型之间的一类关系:实体关系图(G_ER)、实体类型图(G_E2T)和类型关系图(G_TRT)。

  2. 多重关系图注意力网络(MRGAT)学习: 采用MRGAT在HRG的所有子图上分别进行学习,分别为:RGAT_ER、RGAT_E2T和RGAT_TRT。这些模型能够通过聚合周围节点的特征,来有效捕获邻域信息。

  3. 实体类型推理: 使用连接嵌入模型(ConnectE)在学习到的嵌入上进行实体类型预测。ConnectE实现了两种特有的知识驱动类型推理机制,使得推理符合实体类型实例和KG中的三元知识。

实验与结果

实验结果表明,与多种最先进的基线方法相比,本文提出的模型在两个基准数据集上的实体类型预测和分类任务中,取得了显著且一致的提升。

研究结果

  1. 实体类型预测: 该任务旨在推断不完整实体类型实例中的缺失层次类型(如(实体,类型=?))。本文模型通过MRGAT编码周围的节点特征,并使用ConnectE进行类型推理来优化这个过程。与其他最先进的方法相比,本文模型在多个评价指标上表现最优。

    • 评估指标: 使用排序标准评估模型,排名靠前的正确类型表示模型性能优越。评估指标包括平均倒数排名(MRR)和命中率@N(Hits@N)。
    • 结果: 本文模型在FB15k和YAGO43k数据集上的MRR和Hits@N指标均显著超过传统模型,尤其是在Hits@1上,表现非常突出。
  2. 实体类型分类: 该任务通过构造人工负样本,验证模型判断实体类型实例是否正确。连接嵌入模型(ConnectE)较传统模型有显著提升,尤其在YAGO43k数据集上,准确率提升约3.5%。利用MRGAT集成邻域信息进一步提高了分类精度。

研究意义和价值

本文研究的主要贡献如下:

  1. 构建新型异构关系图: 有效整合了KG中现有的异构结构信息,包含实体类型元组和实体关系三元组,为嵌入学习提供丰富的数据支持。
  2. 提出多重关系图注意力网络(MRGAT): 通过MRGAT对HRG中不同子图进行学习,从而充分利用邻域信息,提升了表示学习的效果。
  3. 提出连接嵌入模型(ConnectE): 基于学习到的嵌入,通过结合实体类型实例和关系知识的推理机制,提升实体类型预测精度。

总结

连接嵌入基于多重关系图注意力网络的方法在实体类型识别领域表现出色,有望在知识图谱补全、知识表示学习等多个实际应用中发挥重要作用。未来,本文还计划扩展至结合外部信息,提出新的异构关系图注意力网络(HRGAT),进一步提升模型的普适性和准确性。