DRGI: 深度关系图信息增益用于知识图谱构建完成

2024-06-18 Tue
知识图谱（Knowledge Graph，KG）嵌入技术是人工智能领域中的一个重要研究课题，主要用于知识获取和知识图谱的扩展。近年来，尽管有许多基于图嵌入的方法被提出，但这些方法通常只能关注知识图谱的语义信息，忽略了图的自然结构信息。因此，尽管图卷积网络（Graph Convolutional Networks，GCN）方法能够捕捉部分结构信息，但由于知识图谱的不完全性，它们仍然面临信息不足的问题。为了克服这一问题，本研究提出了一种新的模型，即深度关系图信息增益（Deep Relational Graph Infomax，DRGI），通过互信息（Mutual Information，MI）最大化充分利用了结构信息和语义信息。
本文由来自中国电子科技大学未来媒体中心的Shuang Liang, Jie Shao, Dongyang Zhang, Jiasheng Zhang，以及北京大学计算机科学系的Bin Cui共同撰写，发表于2021年IEEE Transactions on Knowledge and Data Engineering杂志。
研究背景知识图谱是一种描述实体及其关系的语义网络，典型的知识图谱表示形式是三元组，比如实体h与t通过关系r相连形成的三元组(h, r, t)。尽管现有的知识图谱已经包含了大量的实体和关系，但与真实世界的知识相比，仍存在巨大的不完整性。因此，知识图谱的扩展（知识图谱补全，对于缺失的链接进行推断）显得尤为重要。
目前的知识图谱嵌入方法如线性模型或卷积神经网络模型等，主要关注三元组中的语义信息，而忽视结构信息。虽然GCN方法能够利用图的结构信息，但仍然面临知识图谱不完全性导致的信息不足问题。通过实验发现，大量知识图谱并不是连通图，如图2所示的Einstein和Nolan虽然有很多邻居，但仍没有直接关系。因此，单纯依靠GCN的方法难以捕捉到全面的结构信息。
研究方法为了解决这一问题，我们提出了DRGI模型，它由两个相同的自适应关系图注意力网络（Adaptive Relational Graph Attention Networks，ARGAT）组成，分别用于语义信息和结构信息的捕获。该模型进一步使用了互信息（MI）最大化的方法，旨在同时捕获图的结构信息和语义信息。
工作流程数据准备：我们首先将输入的知识图谱转换成两种类型，一种用于捕获结构信息，一种用于捕获语义信息。
编码器：
第一个编码器通过ARGAT模型捕捉图的结构信息。具体方法是使用MI最大化方法，在全局表示和局部表示之间进行最大化，这样能够学习到更加全面的图结构信息。
第二个编码器通过在已知的三元组数据上进行有监督学习，捕获图的语义信息。
解码器：我们使用卷积网络作为解码器，对所有候选实体计算得分，用于预测缺失的实体。
ARGAT模型ARGAT利用了交叉相关和关系注意机制，能够自适应地更新实体和关系的表示。具体步骤包括：
1. 对于每一个目标节点，首先将邻居节点的特征与关系特征进行融合。
2. 计算每一个邻居节点对目标节点的注意力分数。
3. 基于这些分数对节点及其边的信息进行聚合。
4. 动态更新边的隐藏表示，以实现自适应的表示学习。
互信息最大化使用MI最大化的目的是增强图的全局结构信息捕获能力。具体方法是：
1. 在图的局部表示和全局表示之间计算MI。
2. 将局部表示通过一个读出函数汇总成全局表示。
3. 使用判别器对局部-全局对进行判断，将关联的对作为正样本，不关联的对作为负样本，通过最大化MI来训练模型。
实验结果我们在多个数据集上进行了全面的实验，包括FB15k、FB15k-237、WN18、WN18RR、Alyawarra Kinship和UMLS。通过与多种现有方法的比较，我们的DRGI模型在各项指标上均表现出色，特别是在FB15k-237和WN18RR数据集上，DRGI超越了所有其他模型，展示了更快的收敛速度和更好的预测性能。
关键贡献创新模型：提出了一种新的图嵌入模型DRGI，通过MI最大化结合了结构信息和语义信息。
自适应编码器：引入了ARGAT编码器，利用交叉相关和关系注意机制实现了对实体和关系的自适应学习。
全面实验：在多个基准数据集上的实验结果展示了DRGI的有效性和效率，尤其是在小度数实体上的表现。
结论本文提出的新模型DRGI能够有效解决知识图谱中结构信息不足的问题，通过MI最大化的方法，DRGI不仅能够捕捉完整的结构信息，还具有更快的收敛速度和更好的预测性能。这项研究为知识图谱的扩展提供了一种新的思路和方法，也展示了集成结构信息和语义信息的重要性。
在未来的工作中，他们将进一步优化模型的复杂度，同时考虑如何将该模型应用于开放域情况，以便从其他资料如文本中提取信息来进一步增强知识图谱。