AutoAlign: 由大型语言模型驱动的全自动知识图谱对齐

AutoAlign:由大规模语言模型驱动的全自动、高效知识图谱对齐方法

知识图谱(Knowledge Graph,简称KG)已经被广泛应用于问答系统、对话系统和推荐系统等多个领域。然而,不同的知识图谱中可能存在同一现实实体以不同形式存储的问题,这导致知识共同体和信息互补非常困难,尤其在实际应用中,这些知识图谱的合并是一项核心任务。这涉及实体对齐(Entity Alignment),即识别不同知识图谱中代表相同实体的实体对。然而,现有方法通常需要手工制作的种子对齐(Seed Alignments),其获取成本高、可移植性差,并且人工干预可能引入偏差,影响对齐效果。

为了应对上述挑战,来自Tsinghua University、University of Melbourne、Universitas Indonesia、Chinese University of Hong Kong和Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences等机构的Rui Zhang等学者提出了一种名为AutoAlign的新方法。该方法在2024年6月的《IEEE Transactions on Knowledge and Data Engineering》中正式发表。该文章提出了首个无需任何手工种子对齐的全自动知识图谱对齐方法,并通过大规模语言模型(Large Language Model,简称LLM)来实现高效准确的实体和谓词对齐。

研究背景

知识图谱中的知识或现实事实常以三元组的形式存储,而一个三元组由头实体(Head)、谓词(Predicate)和尾实体(Tail)三部分组成。这些三元组中既包括关联关系三元组(Relationships Triples),也涵盖了属性三元组(Attribute Triples)。而对齐任务不仅要识别不同知识图谱中相同的实体对,还需对齐它们的谓词。现有方法多基于表示学习,但都需要手工制作的种子对齐,给大规模应用带来困难。因此,本研究旨在开发一种无需手工干预的自动化知识图谱对齐方法。

方法介绍

AutoAlign通过两大核心组件——谓词对齐模块和实体对齐模块,实现全自动的知识图谱对齐。

谓词对齐模块

AutoAlign首先通过构建谓词近邻图(Predicate-Proximity Graph)来实现谓词对齐。谓词近邻图通过大规模语言模型来捕获两个知识图谱中谓词之间的相似性。具体步骤如下:

  1. 谓词近邻图的构建:将知识图谱中的每个三元组的头实体和尾实体替换为它们对应的类型,从而创建出一个表示实体类型关系的图。例如,将三元组“〈dbp:kromsdorf, dbp:located_in, dbp:germany〉”替换为“〈village, dbp:located_in, country〉”。

  2. 实体类型的自动对齐:利用大规模语言模型(如ChatGPT和Claude)自动对齐两个知识图谱中的实体类型。例如,通过向Claude输入相关提示,自动获取两个知识图谱中相似的类型对。

  3. 模块学习:定义并优化目标函数来学习谓词嵌入,从而使得不同知识图谱中表示相同关系的谓词在向量空间中具有相似的表示。此过程采用了两种聚合方式:加权求和和基于注意力机制的函数。基于注意力机制的方式在实验中表现更优。

实体对齐模块

在完成谓词对齐后,AutoAlign通过以下步骤实现实体对齐:

  1. 独立计算实体嵌入:使用TransE算法分别计算每个知识图谱中的实体嵌入。

  2. 联合学习:通过计算实体基于属性的相似性,将两个知识图谱中的实体嵌入转移到同一个向量空间。具体来说,属性嵌入基于属性值的文本内容,使得相似属性的实体向量更接近。

  3. 实体对齐:最后,利用联合学习得到的统一向量空间中的嵌入,计算出所有实体对之间的相似性,通过设定阈值过滤掉不相似的实体对,以实现实体对齐。

主体流程概述

为了实现嵌入式知识图谱对齐,AutoAlign首先将两个知识图谱在原始形式上合并,并生成谓词近邻三元组及属性三元组。然后,AutoAlign分别得到统一的谓词、结构和属性嵌入。在获得实体嵌入后,通过实体对齐模块确定每对相似度超过阈值的实体对,最终实现实体对齐。

实验结果

AutoAlign在多个真实世界的知识图谱数据集上进行了全面的实验验证,结果表明其在实体对齐任务上的准确性显著优于当前最先进的方法。

  1. 实体对齐性能:AutoAlign与其他现有方法(如MultiKE、AttrE等)相比,展现了更高的Hits@10性能。其中,AutoAlign在dw-nb数据集上的Hits@10指标上超过最优基线方法10.65%。

  2. 嵌入模块影响:通过消融实验评估了结构嵌入和属性嵌入模块的独立贡献,结果表明使用属性嵌入显著提升了对齐效果。

  3. 使用大规模语言模型的优势:AutoAlign利用大规模语言模型实现了完全自动化的实体类型和谓词对齐,相较于人工干预的方法具有更高的自动化程度和准确性。

结论与未来工作

AutoAlign示范了大规模语言模型在提升知识图谱对齐性能上的潜力,减少了人工工作量,并结合大规模模型存储的知识来实现高效的知识图谱对齐。未来研究中,可以探讨在更广泛的基于图或超图的研究领域中应用由大规模语言模型驱动的知识图谱对齐方法,例如在推荐系统中的特征图或区域图的对齐,从而丰富它们的表示能力。

通过这一研究,AutoAlign为全自动、高效的知识图谱对齐提供了一条可行路径,不仅为学术研究提供了新的思路,也为实际应用中的数据整合和知识发现带来了先进的技术保障。