阶段感知分层注意力关系网络用于诊断预测

2024-06-18 Tue
分层注意力关系网络在诊断预测中的应用近年来，电子健康记录（Electronic Health Records，简称EHR）在提高医疗决策、在线疾病检测和监测方面变得极为有价值。同时，基于深度学习的方法在利用EHR进行健康风险预测和诊断预测方面也取得了巨大的成功。然而，深度学习模型通常需要大量的数据，由于参数的庞大数量。此外，EHR数据中存在大量罕见的医学代码，这对临床应用带来了巨大的挑战。因此，一些研究提出采用医学本体来增强预测性能并提供可解释的预测结果。然而，这些医学本体通常规模较小且粒度较粗，缺乏许多诊断和医学概念，更不用说这些概念之间的各种关系了。
为了克服这一限制，本文提出将现有的大规模医学知识图谱（Knowledge Graph，简称KG）结合到诊断预测中，并设计了一种名为HAR（分层注意力关系网络，Hierarchical Attentive Relational Network）的模型。具体来说，对每次就诊，通过从现有医学KG中提取个性化的子KG，HAR在此子KG上进行关系特定的消息传递和分层消息聚合，以细化对应于就诊中的医学代码的节点表示。HAR考虑了患者疾病进展的具体阶段，这参与了关系级和节点级注意的计算。在两个公开数据集上的广泛实验表明，HAR在提高诊断预测任务的就诊级精度和代码级准确性方面是有效的。
研究背景现今，电子健康记录（EHR）已成为一种广泛应用的医疗信息技术。EHR数据按时间顺序表示就诊，每次就诊中包含多个代表临床诊断的医学代码。研究发现，这些EHR数据不仅能提高医疗服务效率，还能用于医疗概念提取、疾病预测等任务。而且，深度学习模型在计算机视觉、自然语言处理、图神经网络和数据挖掘等领域取得了巨大成功，自然而然地，许多基于深度学习的方法被提出用于建模EHR数据。这些方法不仅需要较少的预处理和特征工程，还能实现更好的性能。
然而，基于深度学习的EHR模型通常要求大量数据，原因在于参数量庞大。因此，当训练数据集规模有限时，性能通常不尽人意。此外，EHR数据中相当大比例的医学代码出现频率较低，很难对这些罕见的医学代码学习出准确的表示。在这种情况下，研究人员提出将外部医学知识引入深度学习模型以提升其性能。
例如，GRAM（图结构注意模型，Graph-based Attention Model）通过神经注意力引入医学本体——临床分类软件（Clinical Classifications Software，简称CCS）到深度学习模型中。然而，对医学本体的使用在两个主要方面的好处有限：一方面，大多数医学本体的规模相对较小。例如，CCS仅包含数百个概念，大多数诊断没有对应的概念；另一方面，本体本质上是一个疾病分类树，不包含不同疾病之间的各种关系信息，更不用说反映疾病进展了。因此，我们建议将现有的大规模医学知识图谱SemMed（Semantic MEDLINE）引入诊断预测。
尽管已有一些研究也提出利用大规模的医学知识图谱，但它们未能考虑患者的具体阶段。例如，发热这一诊断在不同阶段可能反映不同程度的严重性。面对一个因发热就诊的患者，一个有经验的医生会根据不同的病史采取不同的处理方法。
研究来源本文由Liping Wang、Qiang Liu、Mengqi Zhang、Yaxuan Hu、Shu Wu和Liang Wang撰写，发表在2024年4月的IEEE Transactions on Knowledge and Data Engineering期刊上。本文的研究部分得到了国家自然科学基金的支持。
研究方法HAR模型由四个主要部分组成：阶段感知关系级注意模块、阶段感知节点级注意模块、关系特定消息传递模块和分层消息聚合模块。该模型设计为一个通用模块，可以与各种时间预测模型结合使用。
个性化图谱提取针对每次就诊，通过从大规模医学知识图谱中提取个性化的子图谱，模型在这些子图谱上进行关系特定的消息传递和分层消息聚合。这些个性化的子图谱代表了与患者当前疾病状态相关的知识点，避免了与患者无关的节点之间的信息传递。
医学代码嵌入将离散的医学代码转换为合理且可学习的表示非常重要。本文采用参数化的嵌入矩阵，将医学代码编码为可训练的嵌入向量，通过端到端的方式自动学习参数矩阵。
阶段感知关系级和节点级注意这种机制考虑了患者疾病进展阶段的具体情况，对每种关系类型和邻近节点分配不同的权重。通过与下游预测模型的隐藏向量结合，HAR分配不同的权重，从而在进行关系级和节点级注意计算的过程中采取更有鉴别力的优先级。
关系特定的消息传递和分层消息聚合在个性化子图谱中，HAR从源节点向目标节点传递信息，确保关系类型的多样性及其信息传递的重要性。在聚合信息时，采取了分层的方式，即首先在相同关系类型的节点之间进行消息传递和更新，然后在多个关系之间进行聚合，最终得到的节点表示发送到下游预测模型中。
端到端的训练与现有预测模型的结合HAR模型与现有的预测模型P共同训练，目标为多标签分类任务，采用交叉熵损失函数。通过梯度下降方法，HAR模型和预测模型P共同优化。
实验结果本文通过在两个公开数据集MIMIC-III和MIMIC-IV上进行广泛实验，验证了HAR的有效性。实验结果表明，HAR在就诊级精度和代码级准确性方面均提升了预测性能。此外，通过消融研究验证了模型架构的合理性，以及每个组件对于HAR总体性能提升的重要性。通过案例研究，验证了HAR所生成的注意力系数可以为医生提供诊断预测的显式解释。
实验设置和数据集在实验中，本文选择了MIMIC-III和MIMIC-IV两个公开可用的EHR数据集。这两个数据集包含了ICU患者的健康记录。实验主要聚焦于这些数据集中的诊断代码，利用这些代码进行预测任务。此外，实验还使用了大规模医学知识图谱SemMed，该知识图谱包含15万以上的实体和64种关系类型。
性能比较通过对比多种基线模型，如LSTM、RETAIN、DIPLOE、RAIM、StageNet和HiTANet，实验结果显示，结合了HAR的模型在就诊级和代码级均表现出色，尤其在处理稀有疾病和少量数据集时，HAR模型的改进更为显著。
消融研究通过消融研究，实验结果验证了阶段感知关系和节点级注意机制对于提升模型性能的必要性，并评估了不同注意力机制的影响。
敏感性分析对超参数λ的敏感性分析结果表明，HAR在[0, 0.9]的范围内能保持一定的鲁棒性，反映了外部医学知识在模型中的有效性。
模型可解释性案例研究显示，通过分析HAR生成的注意力系数，可以揭示不同疾病症状间的关系，为临床医生提供显式解释。
结论本文提出的HAR模型有效克服了现有诊断预测模型在数据量和罕见医学代码上的挑战，将大规模医学知识图谱引入诊断预测并实现了显著的性能提升。通过进一步的研究，HAR模型还表现出良好的可解释性，有望在临床实际应用中提供有力的支持。