面向遗忘-鲁棒知识追踪的深度图记忆网络

面向遗忘-鲁棒知识追踪的深度图记忆网络

近年来,知识追踪(KT)作为个性化学习的重要方法吸引了广泛关注。知识追踪旨在预测学生回答新问题时的正确率,利用他们过往问题的回答历史来估计其知识状态。然而,当前的知识追踪方法仍面临一些挑战,包括对遗忘行为的建模和潜在概念之间关系的识别。为了解决这些问题,本文提出了一种全新的知识追踪模型,即深度图记忆网络(Deep Graph Memory Network, DGMN)。本文具体概述了DGMN模型的设计、实验过程及其在各类数据集上的表现。

研究背景

知识追踪问题自提出以来,一直是教育领域的一个重要研究方向。其核心目标是通过学生的历史回答数据,预测其未来回答问题的正确概率。早期的知识追踪方法主要包括基于贝叶斯方法和状态空间模型的方法,例如隐马尔可夫模型(Hidden Markov Models, HMM)。这些方法虽然概念简单,但往往基于对知识状态和潜在概念(latent concepts)的过于简化假设,导致推断复杂度较高。

近年来,深度学习方法被引入知识追踪领域,通过使用深度神经网络对问题回答序列建模。这些方法大大提升了预测的准确性。例如,Piech等人提出的深度知识追踪(Deep Knowledge Tracing, DKT)模型,使用递归神经网络(Recurrent Neural Network, RNN)跟踪学生的知识状态。

DGMN模型的示意图 尽管深度学习方法在知识追踪领域取得了显著进展,但仍存在遗忘行为建模不足以及潜在概念关系识别的挑战。为此,本文提出的DGMN模型引入了注意力记忆结构中的遗忘门控机制,以动态捕捉知识追踪过程中的遗忘行为。

文章来源

本文由Ghodai Abdelrahman和Qing Wang撰写,作者均来自Australian National University(澳大利亚国立大学)的计算学院。论文于2022年9月9日发表在IEEE Transactions on Knowledge and Data Engineering(TKDE)杂志。

研究方法与流程

方法概述

DGMN模型结合了注意力记忆(Attention Memory)和潜在概念图(Latent Concept Graph)两个主要组件,提出了一种新的遗忘建模机制,由以下几个步骤构成: 1. 概念嵌入记忆(Concept Embedding Memory): 该组件存储每个潜在概念的嵌入向量,并通过注意力机制计算当前问题与存储嵌入间的相关性。 2. 概念状态记忆(Concept State Memory): 储存学生当前的知识状态,利用注意力机制在回答序列中读取相关的知识状态数据。 3. 遗忘门控机制(Forget Gating Mechanism): 将遗忘特征与当前知识状态进行结合,根据过去回答序列动态调整知识状态,并最终用于答案预测。 4. 潜在概念图(Latent Concept Graph): 通过图卷积网络提取潜在概念之间的关系,并在预测过程中加权组合这些关系信息。

具体流程

  1. 问题与答案嵌入: 给定一组问题,DGMN首先进行问题向量的嵌入,并利用记忆矩阵存储这些嵌入信息。
  2. 注意力机制计算: 通过内积计算当前问题嵌入与记忆矩阵的相关性分布,形成相关性向量。
  3. 读取相关知识状态: 根据相关性向量,从概念状态记忆中读取对应的知识状态信息。
  4. 构建遗忘特征: 计算问答序列中的遗忘特征,包括时间间隔和回答次数信息,并利用遗忘门控机制将其与知识状态结合。
  5. 更新记忆: 基于最新的问答数据,经过门控机制生成的新向量更新存储的知识状态。
  6. 构建潜在概念图: 利用图卷积网络(Graph Convolutional Network, GCN)从嵌入矩阵中提取潜在概念之间的关系,并动态调整图结构,根据学生的知识状态变化来跟踪潜在概念间的关系。
  7. 预测答案: 将结合了注意力记忆信息和潜在概念图关系的信息输入全连接层,进行正确概率的预测。

实验设置与数据集

研究对四个广泛使用的基准数据集进行实验:

  1. ASSISTments2009: 包含学校数学方面的问题,由2009-2010学年收集,包含110个问题,4151名学生,共325637对问题-答案对。
  2. Statics2011: 从卡内基梅隆大学工程课程收集的数据,包含1223个问题,335名学生,共189297对问题-答案对。
  3. Synthetic-5: 由DKT模型作者模拟的数据,4000名学生,50个问题,总计200000个回答。
  4. KDDCup2010: 根据2005-2006年的代数课程数据,包含436个问题,575名学生,共607026个最终回答。

模型优化

通过Adam优化算法对模型进行优化,记忆矩阵和嵌入矩阵的参数通过零均值的高斯分布初始化。此外,利用交叉熵损失函数进行梯度下降。

实验结果与讨论

模型性能对比

实验结果表明,DGMN在所有数据集上均优于当前最高性能的KT模型。通过与SAINT+、AKT、DKVMN等模型的比较,DGMN显示出显著的性能提升,此外,还在不同数据集上表现出强大的泛化能力。

特性消融实验

通过不同模型变体的对比实验,发现潜在概念图模块、遗忘门控机制和问题排序技术对DGMN性能均有显著提升。当移除某一模块时,模型的AUC值显著下降,表明每个组件对整体模型性能的贡献。

潜在概念图分析

对ASSISTments2009和Statics2011数据集进行潜在概念图分析,通过可视化的方式展示了潜在概念间的关系,进一步验证了DGMN在知识状态跟踪和关系捕捉方面的有效性。

遗忘特征建模分析

通过热力图比较DGMN和DKT+Forget模型对问题正确率的预测差异,发现DGMN能够更准确地捕捉不同概念间的遗忘行为,进一步验证了该遗忘机制的有效性。

研究的意义和价值

DGMN模型提供了一种高效的方法,将遗忘行为和潜在概念之间的关系动态地结合到知识追踪过程中。这不仅在科学研究领域具有重要价值,更在实际教育应用中具有广泛的潜在应用场景,如个性化教学、学习路径优化和在线教育平台的题目推荐等。未来的工作可以进一步探索潜在概念图在课程学习和学生练习推荐中的应用,持续优化模型的预测能力和适用性。