利用电子健康记录特征识别未诊断的常见变异型免疫缺陷症患者
利用电子健康记录特征识别未诊断的常见变异型免疫缺陷症患者
Johnson等人最近在 Science Translational Medicine 发表了一篇题为《Electronic health record signatures identify undiagnosed patients with common variable immunodeficiency disease》的研究论文。该研究通过电子健康记录(EHRs)和机器学习算法PheneT,识别未被诊断的普通变量免疫缺陷病(common variable immunodeficiency,CVID)的患者,为更早的诊断和治疗提供新途径。
研究背景和研究目的
人类先天性免疫缺陷(inborn errors of immunity,IEI)包括一系列由于B细胞功能障碍导致的功能性和数量性抗体缺陷,其表现之一即为常见变异型免疫缺陷(CVID)。CVID是一组异质性较高的疾病,患者症状各异,包括感染、自身免疫病和炎症性病症,与多种常见疾病重叠。由于其罕见性(约1/25000的发病率)和表型的多样性,CVID的诊断和治疗常常延迟,从症状出现到确诊平均需要5到15年,这不仅增加了患者的痛苦,还显著提升了医疗系统的整体成本。目前,CVID没有公认的单一病因,基因测试也无法给出确定诊断。因此,迫切需要一种有效的方法来缩短CVID的诊断时间,能够早期诊断和治疗这些患者。
论文来源
该研究由UCLA的Ruth Johnson、Alexis V. Stephens、Rachel Mester等人撰写,发表在2024年5月1日的 Science Translational Medicine 杂志上。
研究机构
此次研究的作者来自多个学术和医疗研究机构,包括:
- University of California, Los Angeles (UCLA)
- University of California, Irvine (UCI)
- University of California, San Diego (UCSD)
- Vanderbilt University, Nashville, TN
研究方法
此次研究着重开发了一个名为PheneT的机器学习算法,用于从EHR数据中识别未被诊断的CVID患者。
a) 研究流程
数据准备:
- 从UCLA电子健康记录系统中提取约3200名带有免疫缺陷相关ICD代码的候选患者。通过临床免疫学家手工审核,最终确定197名符合CVID标准的患者为“真实”病例,进一步构建模型。
特征选择:
- 从这些病例中提取特征,采用HPO(Human Phenotype Ontology)和OMIM(Online Mendelian Inheritance in Man)数据库,将CVID的临床表型映射到Phecode(表型代码),获得34个与CVID相关的Phecodes。
- 使用包含CVID患者的训练数据集增加特征选择的准确性,从中挑选了44个Phecodes。
模型训练:
- 采用边际逻辑回归法对所选特征进行训练。
- 模型的训练过程中包括数据平衡处理,适度扩展样本量(0.5的上采样比)。
- 在五折交叉验证中使用IgG实验室测试结果优化模型,提高了模型的准确性。
验证与应用:
- 对五家不同医疗系统(包括UCLA)的600多万条记录进行外部验证,PheneT展示出在不同系统间的普适性。
- 在UCLA的EHR数据中,PheneT能够提前244天(约8个月)诊断出CVID患者。
b) 主要结果
PheneT的性能:
- PheneT优于现有的Phers方法,在AUC-ROC和AUC-PR等性能指标上分别提高了17%和42%。
- PheneT模型通过65个特征,准确且高效地识别出CVID患者。
早期诊断:
- PheneT能够在诊断前的数月内识别出高风险的CVID患者。研究显示,PheneT可以在患者确诊前平均提前244天检测出疾病。
- 此外,在顶级风险评分前100名中,74%的患者被评估为高度可能为CVID,表明PheneT的有效性。
跨机构验证:
- PheneT被应用于加州大学多个医学中心及Vanderbilt University的EHR数据,显示出该算法在不同数据集上的较高鲁棒性和普适性。
c) 结论与研究价值
科学价值:
- 该研究证明了机器学习在医疗领域,尤其是在罕见病早期诊断方面的巨大潜力。
- 表明大规模的EHR数据用于机器学习可以有效缩短罕见病的诊断时间,减少患者的痛苦和医疗资源的浪费。
应用价值:
- PheneT为临床诊断提供了新的方法和工具,它可以帮助医生更早地识别潜在的CVID患者,对患者进行早期干预,从而改善病人的预后。
- 医疗系统可利用此算法在广泛的人群中进行筛查,提高罕见病的识别率,优化医疗资源分配。
d) 研究亮点
创新性:
- PheneT算法结合了机器学习和大规模EHR数据,探索了传统方法无法涵盖的复杂病理特征。
- 用于CVID的综合风险评分模型改进了现有方法,并在跨机构的验证中展现出了较高的可靠性。
临床影响:
- 通过PheneT,可以显著减少CVID的诊断延迟,节约大量医疗资源,并改善患者的生活质量和预后。
通过对EHR数据进行系统性的分析,PheneT算法展示出在复杂罕见病诊断中的巨大潜力,为未来医疗AI的应用提供了极具价值的参考。