本文介绍了一篇关于知识图谱(Knowledge Graphs, KGs)实体对齐(Entity Alignment)的研究论文,题为《Entity Alignment between Knowledge Graphs using Attribute Embeddings》,作者为Bayu Distiawan Trisedya、Jianzhong Qi和Rui Zhang,来自墨尔本大学计算与信息系统学院。该论文发表于2019年的第33届AAAI人工智能会议(AAAI-19)。
知识图谱是一种以图结构表示知识的工具,广泛应用于问答系统、推荐系统等领域。然而,不同的知识图谱通常由不同的组织或项目创建,导致同一实体在不同知识图谱中可能以不同的形式存在。例如,一个城市在LinkedGeoData和DBpedia两个知识图谱中可能有不同的标识符。为了整合这些知识图谱,实体对齐成为一个关键问题。实体对齐的目标是找到不同知识图谱中表示同一现实世界实体的实体对。
传统的实体对齐方法依赖于字符串相似性或用户定义的规则来比较实体的属性,但这些方法存在局限性,尤其是当不同实体对需要比较的属性不同时,容易产生错误。近年来,基于嵌入(Embedding)的模型被提出用于实体对齐任务。这些模型通过学习知识图谱中实体的嵌入表示来捕捉实体之间的语义相似性。然而,现有的嵌入模型通常需要大量的种子对齐(即预先标注的实体对)来将不同知识图谱的嵌入空间映射到同一空间,而种子对齐的获取成本较高。
本文提出了一种新的嵌入模型,利用知识图谱中的大量属性三元组(Attribute Triples)生成属性字符嵌入(Attribute Character Embedding),并通过这些嵌入将两个知识图谱的实体嵌入映射到同一向量空间。具体来说,模型包括以下几个步骤:
谓词对齐(Predicate Alignment):首先,模型通过计算谓词URI的编辑距离,将两个知识图谱中的谓词(Predicate)进行对齐,并使用统一的命名方案重命名谓词。这一步骤确保了关系嵌入(Relationship Embedding)能够在同一向量空间中进行学习。
嵌入学习(Embedding Learning):模型通过联合学习结构嵌入(Structure Embedding)和属性字符嵌入来生成统一的实体嵌入空间。结构嵌入通过学习关系三元组(Relationship Triples)来捕捉实体之间的结构相似性,而属性字符嵌入则通过学习属性三元组(Attribute Triples)来捕捉实体之间的属性相似性。属性字符嵌入通过字符级别的组合函数(如n-gram、LSTM等)将属性值编码为向量表示,从而使得不同知识图谱中的相似属性值具有相似的向量表示。
实体对齐(Entity Alignment):在获得统一的实体嵌入空间后,模型通过计算实体之间的余弦相似度来进行实体对齐。给定一个实体,模型会计算其与另一个知识图谱中所有实体的相似度,并选择相似度最高的实体对作为对齐结果。
三元组丰富(Triple Enrichment via Transitivity Rule):为了进一步提高模型的性能,模型利用传递性规则(Transitivity Rule)来丰富实体的属性三元组。例如,通过知道“Emporium Tower位于London”和“London位于England”,可以推断出“Emporium Tower位于England”。这一步骤增加了实体的属性数量,从而增强了属性嵌入的鲁棒性。
本文在三个真实的知识图谱对(DBpedia-LinkedGeoData、DBpedia-GeoNames和DBpedia-YAGO)上进行了实验,评估了模型在实体对齐任务中的性能。实验结果表明,本文提出的模型在Hits@1指标上比基线模型(如TransE、MTransE和JAPE)提高了超过50%。特别是在使用n-gram组合函数的属性字符嵌入模型中,模型的性能最佳。此外,传递性规则的引入进一步提升了模型的表现。
本文的主要贡献在于提出了一种新的嵌入模型,通过结合结构嵌入和属性字符嵌入来实现知识图谱之间的实体对齐。与现有方法相比,本文的模型不需要依赖大量的种子对齐,而是通过属性嵌入将不同知识图谱的实体嵌入映射到同一空间。实验结果表明,该模型在实体对齐任务中表现优异,显著优于现有的基线模型。
本文提出的模型在知识图谱整合、跨领域知识推理等应用中具有重要的价值。通过高效的实体对齐,可以整合多个知识图谱中的知识,形成更完整的知识库,从而支持更复杂的知识推理和应用。
本文的研究得到了印度尼西亚教育基金(LPDP)、澳大利亚研究委员会(ARC)、谷歌教师研究奖以及中国国家自然科学基金的支持。