通过时间知识图谱和医学本体预测未来疾病

预测未来疾病:时间知识图谱和医学本体的融合

电子健康记录(Electronic Health Records,EHRs)是现代医疗机构不可或缺的工具。它们记录了患者的详细健康历史,包含人口统计数据、药物、实验室结果和治疗计划。这些数据不仅可以改善医疗服务之间的衔接和协调,还能帮助医疗提供者发现健康趋势并做出数据驱动的决策,从而提高患者的整体护理质量。然而,EHRs中存储的大部分数据是非结构化的,特别是由临床医生撰写的描述患者健康状况的自由文本数据,这给信息提取和有效利用带来了巨大的挑战。

为了应对这一挑战,许多研究尝试通过自然语言处理(Natural Language Processing,NLP)技术从非结构化数据中提取相关信息并将其链接到医学本体。最近的研究中,知识图谱(Knowledge Graphs,KGs)显示出其在推荐系统、信息检索和自然语言处理中整合不同类型及来源多样的患者数据的潜力,但传统的静态知识图谱无法描绘时间依赖性,无法有效反映患者健康状态的动态变化。

研究背景与目的

本研究由Marco Postiglione、Daniel Bean、Zeljko Kraljevic、Richard JB Dobson和Vincenzo Moscato共同撰写,发表于《IEEE Journal of Biomedical and Health Informatics》。研究团队包括来自University of Naples Federico II和King’s College London的专家,他们在领域内进行了一系列开创性的研究。

在这篇研究中,作者提出了一种名为MedTKG的时间知识图谱(Temporal Knowledge Graph,TKG)框架,该框架整合了患者的动态临床历史信息和医学本体的静态信息。研究旨在通过识别四元组(s, r, ?, t)中的缺失对象来预测未来的疾病,其中s和r分别表示患者和疾病关系类型,t是查询的时间戳。研究基于来自MIMIC-III数据集的临床笔记,验证了该方法预测未来疾病的有效性,并展示了医学本体在提高模型性能中的作用。

方法与过程

数据集与预处理

研究中使用了MIMIC-III数据集,该数据集由MIT Lab for Computational Physiology开发,包含了2001年至2012年间Beth Israel Deaconess Medical Center重症监护单元患者的信息。数据集包括46,520名患者,共计2,083,179份无结构化的临床笔记。

为了提取概念,研究团队采用MedCAT(Medical Concept Annotation Toolkit)工具,该工具通过自监督学习的最新模型训练,可精确识别临床概念并将其链接到SNOMED-CT本体。随后,研究对提取的数据进行了预处理,包括:去除了频率低于100次的罕见疾病和容易识别患者的概念;保留至少出现两次的生物医学概念;去除了SNOMED本体中与时间线中已有概念共享“是”关系的父概念;将一日内重复的概念移除;排除了包含少于10个概念的医疗历史。

医学本体与时间知识图谱

研究通过SNOMED-CT本体建立了医学概念和其对应代码之间的映射,识别并分析了概念之间的直接关系(如“是”关系)和间接关系(如共享父概念)。结果显示,利用医学本体与时间知识图谱有效地提升了预测模型的性能。

定义方面,医疗历史被表示为一系列知识图谱的序列(例如:mt = {g1,g2, … ,gt}),其中t是知识图谱的序列长度。每个知识图谱gt = ⟨v,r, et⟩在时间戳t时是一个有向异构图,v、r和et分别表示时间戳t时的实体、关系和事实集。医学本体图gs是建模嵌入于医学本体中的知识的静态知识图谱。

模型设计与架构

MedTKG模型的架构如图2所示,主要包括:

  1. 输入模块:从临床笔记中的自由文本开始,首先通过命名实体识别和链接(NER+L)工具提取相关的临床概念并链接到医学本体。随后,这些提取的医学概念以时间序列的知识图谱形式表示。

  2. 演化单元:该单元利用关系感知图卷积网络(GCN)来捕捉知识图谱中的结构依赖关系,并通过时间门控递归单元(GRU)来建模知识图谱的时间演化。此外,为确保保留医学本体的静态特性,静态图约束组件引入了约束条件,将医学本体的静态嵌入与实体的演化嵌入结合起来。

  3. 打分函数与损失函数:打分函数旨在计算给定病历mt的候选三元组的条件概率,使用ConvTransE作为解码器。损失函数由实体预测任务的损失le和医学本体约束的损失ls组成。

实验与结果

数据集与医学本体统计

研究中医疗历史被划分为不同知识图谱训练集和测试集。训练集占90%,验证集和测试集各占5%。附表II详细列出了数据集的统计信息,表明由该研究生成的图数据。

评估指标

研究中使用了多个评估指标,包括平均倒数排名(MRR)、Top-k命中率(Hits@k)和平均召回率(MR@k)。研究表明,MedTKG在真实阳性率和命中率方面表现显著优于其他基线方法,验证了其在临床应用环境中的高精度预测能力。

结论与未来方向

本研究提出了MedTKG框架,成功整合了EHRs的动态信息和医学本体的静态信息,展示了在预测未来疾病方面的显著优势。未来的研究方向包括深入分析MedTKG的可解释性,为其预测提供清晰可理解的依据,并扩展研究范围以包括新的数据集和更多类型的医学事件。同时,研究团队计划通过临床试验验证该框架在实际临床应用中的有效性。

通过利用时间知识图谱和医学本体,MedTKG为医疗领域提供了一种强大的建模工具,潜在提升临床决策的准确性,从而改善患者的整体健康状况。