利用电子健康记录特征识别未诊断的常见变异型免疫缺陷症患者

利用电子健康记录特征识别未诊断的常见变异型免疫缺陷症患者

研究概况

Johnson等人最近在 Science Translational Medicine 发表了一篇题为《Electronic health record signatures identify undiagnosed patients with common variable immunodeficiency disease》的研究论文。该研究通过电子健康记录(EHRs)和机器学习算法PheneT,识别未被诊断的普通变量免疫缺陷病(common variable immunodeficiency,CVID)的患者,为更早的诊断和治疗提供新途径。

研究背景和研究目的

人类先天性免疫缺陷(inborn errors of immunity,IEI)包括一系列由于B细胞功能障碍导致的功能性和数量性抗体缺陷,其表现之一即为常见变异型免疫缺陷(CVID)。CVID是一组异质性较高的疾病,患者症状各异,包括感染、自身免疫病和炎症性病症,与多种常见疾病重叠。由于其罕见性(约1/25000的发病率)和表型的多样性,CVID的诊断和治疗常常延迟,从症状出现到确诊平均需要5到15年,这不仅增加了患者的痛苦,还显著提升了医疗系统的整体成本。目前,CVID没有公认的单一病因,基因测试也无法给出确定诊断。因此,迫切需要一种有效的方法来缩短CVID的诊断时间,能够早期诊断和治疗这些患者。

论文来源

该研究由UCLA的Ruth Johnson、Alexis V. Stephens、Rachel Mester等人撰写,发表在2024年5月1日的 Science Translational Medicine 杂志上。

研究机构

此次研究的作者来自多个学术和医疗研究机构,包括:

  • University of California, Los Angeles (UCLA)
  • University of California, Irvine (UCI)
  • University of California, San Diego (UCSD)
  • Vanderbilt University, Nashville, TN

研究方法

此次研究着重开发了一个名为PheneT的机器学习算法,用于从EHR数据中识别未被诊断的CVID患者。

a) 研究流程

  1. 数据准备:

    • 从UCLA电子健康记录系统中提取约3200名带有免疫缺陷相关ICD代码的候选患者。通过临床免疫学家手工审核,最终确定197名符合CVID标准的患者为“真实”病例,进一步构建模型。
  2. 特征选择:

    • 从这些病例中提取特征,采用HPO(Human Phenotype Ontology)和OMIM(Online Mendelian Inheritance in Man)数据库,将CVID的临床表型映射到Phecode(表型代码),获得34个与CVID相关的Phecodes。
    • 使用包含CVID患者的训练数据集增加特征选择的准确性,从中挑选了44个Phecodes。
  3. 模型训练:

    • 采用边际逻辑回归法对所选特征进行训练。
    • 模型的训练过程中包括数据平衡处理,适度扩展样本量(0.5的上采样比)。
    • 在五折交叉验证中使用IgG实验室测试结果优化模型,提高了模型的准确性。
  4. 验证与应用:

    • 对五家不同医疗系统(包括UCLA)的600多万条记录进行外部验证,PheneT展示出在不同系统间的普适性。
    • 在UCLA的EHR数据中,PheneT能够提前244天(约8个月)诊断出CVID患者。

b) 主要结果

  • PheneT的性能:

    • PheneT优于现有的Phers方法,在AUC-ROC和AUC-PR等性能指标上分别提高了17%和42%。
    • PheneT模型通过65个特征,准确且高效地识别出CVID患者。
  • 早期诊断:

    • PheneT能够在诊断前的数月内识别出高风险的CVID患者。研究显示,PheneT可以在患者确诊前平均提前244天检测出疾病。
    • 此外,在顶级风险评分前100名中,74%的患者被评估为高度可能为CVID,表明PheneT的有效性。
  • 跨机构验证:

    • PheneT被应用于加州大学多个医学中心及Vanderbilt University的EHR数据,显示出该算法在不同数据集上的较高鲁棒性和普适性。

c) 结论与研究价值

  • 科学价值:

    • 该研究证明了机器学习在医疗领域,尤其是在罕见病早期诊断方面的巨大潜力。
    • 表明大规模的EHR数据用于机器学习可以有效缩短罕见病的诊断时间,减少患者的痛苦和医疗资源的浪费。
  • 应用价值:

    • PheneT为临床诊断提供了新的方法和工具,它可以帮助医生更早地识别潜在的CVID患者,对患者进行早期干预,从而改善病人的预后。
    • 医疗系统可利用此算法在广泛的人群中进行筛查,提高罕见病的识别率,优化医疗资源分配。

d) 研究亮点

  • 创新性:

    • PheneT算法结合了机器学习和大规模EHR数据,探索了传统方法无法涵盖的复杂病理特征。
    • 用于CVID的综合风险评分模型改进了现有方法,并在跨机构的验证中展现出了较高的可靠性。
  • 临床影响:

    • 通过PheneT,可以显著减少CVID的诊断延迟,节约大量医疗资源,并改善患者的生活质量和预后。

通过对EHR数据进行系统性的分析,PheneT算法展示出在复杂罕见病诊断中的巨大潜力,为未来医疗AI的应用提供了极具价值的参考。