分享自:

基于知识图谱卷积网络的推荐系统研究

期刊:Proceedings of the 2019 World Wide Web Conference (WWW '19)DOI:10.1145/3308558.3313417

知识图谱卷积网络在推荐系统中的应用

本文的研究由Hongwei Wang(上海交通大学)、Miao Zhao(香港理工大学)、Xing Xie(微软亚洲研究院)、Wenjie Li(香港理工大学)以及Minyi Guo(上海交通大学)协作完成,并发表于2019年5月13-17日举办的2019 World Wide Web Conference(WWW ’19)。这项研究的关注点是通过知识图谱卷积网络(Knowledge Graph Convolutional Networks, KGCN)优化推荐系统性能,尤其是缓解传统协同过滤方法中存在的数据稀疏和冷启动问题。

研究背景

推荐系统在现代互联网中扮演着重要角色,通过为用户筛选与推荐个性化内容,解决信息过载问题。传统的协同过滤技术(Collaborative Filtering, CF)是推荐系统的重要方法之一,但是其表现往往受限于用户与物品交互数据的稀疏性及冷启动问题。为了解决这些问题,多个研究已尝试引入用户和物品的属性信息,以丰富特征并提升推荐效果。

近年来,知识图谱(Knowledge Graph, KG)作为一种特殊的图结构,被用于进一步挖掘用户与物品之间潜在的关系。知识图谱不仅包括用户与物品的属性信息,还包含它们之间的语义关系和拓扑结构。例如,一个图谱中可能表示“作者-书籍”的关系,也可能通过更深的图路径连接“用户-爱好电影-历史相关电影”。然而,现有研究在使用知识图谱时存在不足,例如手动设计元路径或依赖知识图谱嵌入技术,这些方式要么依赖人工设定、要么无法充分捕获图谱结构信息及语义信息。

研究目的

本文的目标是设计一种新的基于图卷积网络(Graph Convolutional Network, GCN)的方法,直接从知识图谱的结构中提取高阶潜在关系,并结合用户个性化偏好,使推荐结果更加精准、多样化且具备可解释性。因此,本文提出知识图谱卷积网络(KGCN),这是一个端到端的框架,能够有效捕获实体高阶的结构连接与语义信息,并在大规模数据集上高效运行。


方法与研究流程

1. 总体方法

KGCN通过以下方式扩展了传统GCN的方法: - 在图卷积过程中,聚合邻居节点的信息,但根据用户特定的偏好对关系赋予差异化的权重,从而为同一实体的不同用户生成个性化表征。 - 支持多跳邻域采样,即从目标实体的直接邻居开始递归扩展,捕获高阶关系。 - 为了处理大规模数据集,KGCN使用小批量(mini-batch)的训练方式,使其具备较高的计算效率。

2. 样本定义

研究中定义了用户集合 ( U )、物品集合 ( V ),以及它们的交互矩阵 ( Y ),其中不同点相连表示交互是否发生(例如用户购买、点击、评分等操作)。此外,知识图谱 ( G ) 包括实体与实体间的三元组关系,即 ((h, r, t)),分别表示“头实体”(head)、“关系”(relation)和“尾实体”(tail)。在推荐场景中,物品实体 ( v ) 会直接映射到知识图谱中的某个节点 ( e ),从而实现推荐系统与知识图谱的结合。

3. 模型框架设计

(1)单层KGCN层设计: - 邻域采样与计算: 对每个实体 ( v ),从知识图谱中随机采样固定数量 ( k ) 的邻居节点,而不是使用全部邻居,以减少计算复杂度。同时,为了使采样具有语义上的权重,定义用户与关系之间的偏好得分 (\pi_{ur}),衡量不同关系的相对重要性。 - 信息聚合: 通过对目标实体及其邻居特征的加权组合,生成拥有局部结构的新的嵌入表征。

(2)多层扩展: - 通过逐层迭代拓展邻域计算,KGCN逐步捕获目标实体两跳及以上邻域的高阶连接信息。实验中设置的模型深度 ( h ) 可自由调整,以适应不同的推荐场景。


数据实验与结果分析

本文将KGCN模型应用于三个特定领域的真实推荐数据集: - 电影推荐: Movielens-20M 数据集(接近20M条记录)。 - 图书推荐: Book-Crossing 数据集(包含17.2K次交互)。 - 音乐推荐: Last.fm 数据集(当前用户对音乐人的推荐任务)。

模型在两个实验任务中进行了评估,即点击率预测(CTR Prediction)和Top-K推荐,所用的评价指标包括AUC、F1 Score和Recall@K。

1. 主要实验结果

实验表明,KGCN在三个数据集中的表现显著优于主流基线方法,包括传统的协同过滤(如SVD)和现有的知识图谱方法(如RippleNet、CKE等)。在Click-through Rate测评中,KGCN分别获得了以下平均AUC超越: - Movielens-20M 数据集:+4.4%; - Book-Crossing 数据集:+8.1%; - Last.fm 数据集:+6.2%。

2. 方法的鲁棒性与分析

(1)邻域大小与采样深度: 实验进一步调整了参数 ( k )(采样的邻居节点数量)和 ( h )(模型传递的网络深度),用来检验模型性能的敏感性。结果发现,过大的扩展深度 ( h ) 和过多的邻域大小 ( k ) 会引入图谱噪声,反而降低推荐的准确性。

(2)嵌入维度影响: 嵌入维度的增加会初步增强模型效果,但超高维度容易导致过拟合。因此,研究推荐实验中嵌入维度 ( d ) 的设置为适中取值。


模型贡献与科学意义

本文的贡献包括: 1. 提出了知识图谱卷积网络(KGCN),使其能自动有效地捕获用户在知识图谱上的长距离潜在兴趣。 2. 实验展开在三个真实世界应用场景中,验证了方法的鲁棒性和通用性。 3. 提供了代码和数据集,供进一步验证和研究(项目地址)。

通过在多场景中的成功应用,该研究为推荐系统及知识图谱结合研究提供了重要见解,同时也为处理数据稀疏问题提供了新思路。


展望与未来研究方向

作者指出以下未来研究方向: 1. 考虑非均匀邻域采样方法(如重要性采样)以优化邻域选择策略; 2. 在推荐场景中探索用户端知识图谱的关联作用; 3. 设计合适的算法框架,将用户端和物品端的知识图谱结合起来,从而进一步提高推荐的精准性与解释能力。

总的来看,KGCN模型在推荐系统研究中具有重要的科学价值,其可扩展性和良好的性能也为基于图表示学习的推荐系统设计树立了新标杆。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com