利用电子健康记录特征识别未诊断的常见变异型免疫缺陷症患者

2024-05-28 Tue
利用电子健康记录特征识别未诊断的常见变异型免疫缺陷症患者
Johnson等人最近在 Science Translational Medicine 发表了一篇题为《Electronic health record signatures identify undiagnosed patients with common variable immunodeficiency disease》的研究论文。该研究通过电子健康记录(EHRs)和机器学习算法PheneT，识别未被诊断的普通变量免疫缺陷病（common variable immunodeficiency，CVID）的患者，为更早的诊断和治疗提供新途径。
研究背景和研究目的人类先天性免疫缺陷（inborn errors of immunity，IEI）包括一系列由于B细胞功能障碍导致的功能性和数量性抗体缺陷，其表现之一即为常见变异型免疫缺陷（CVID）。CVID是一组异质性较高的疾病，患者症状各异，包括感染、自身免疫病和炎症性病症，与多种常见疾病重叠。由于其罕见性（约1/25000的发病率）和表型的多样性，CVID的诊断和治疗常常延迟，从症状出现到确诊平均需要5到15年，这不仅增加了患者的痛苦，还显著提升了医疗系统的整体成本。目前，CVID没有公认的单一病因，基因测试也无法给出确定诊断。因此，迫切需要一种有效的方法来缩短CVID的诊断时间，能够早期诊断和治疗这些患者。
论文来源该研究由UCLA的Ruth Johnson、Alexis V. Stephens、Rachel Mester等人撰写，发表在2024年5月1日的 Science Translational Medicine 杂志上。
研究机构此次研究的作者来自多个学术和医疗研究机构，包括：
University of California, Los Angeles (UCLA)
University of California, Irvine (UCI)
University of California, San Diego (UCSD)
Vanderbilt University, Nashville, TN
研究方法此次研究着重开发了一个名为PheneT的机器学习算法，用于从EHR数据中识别未被诊断的CVID患者。
a) 研究流程数据准备：
从UCLA电子健康记录系统中提取约3200名带有免疫缺陷相关ICD代码的候选患者。通过临床免疫学家手工审核，最终确定197名符合CVID标准的患者为“真实”病例，进一步构建模型。
特征选择：
从这些病例中提取特征，采用HPO（Human Phenotype Ontology）和OMIM（Online Mendelian Inheritance in Man）数据库，将CVID的临床表型映射到Phecode（表型代码），获得34个与CVID相关的Phecodes。
使用包含CVID患者的训练数据集增加特征选择的准确性，从中挑选了44个Phecodes。
模型训练：
采用边际逻辑回归法对所选特征进行训练。
模型的训练过程中包括数据平衡处理，适度扩展样本量（0.5的上采样比）。
在五折交叉验证中使用IgG实验室测试结果优化模型，提高了模型的准确性。
验证与应用：
对五家不同医疗系统（包括UCLA）的600多万条记录进行外部验证，PheneT展示出在不同系统间的普适性。
在UCLA的EHR数据中，PheneT能够提前244天（约8个月）诊断出CVID患者。
b) 主要结果PheneT的性能：
PheneT优于现有的Phers方法，在AUC-ROC和AUC-PR等性能指标上分别提高了17%和42%。
PheneT模型通过65个特征，准确且高效地识别出CVID患者。
早期诊断：
PheneT能够在诊断前的数月内识别出高风险的CVID患者。研究显示，PheneT可以在患者确诊前平均提前244天检测出疾病。
此外，在顶级风险评分前100名中，74%的患者被评估为高度可能为CVID，表明PheneT的有效性。
跨机构验证：
PheneT被应用于加州大学多个医学中心及Vanderbilt University的EHR数据，显示出该算法在不同数据集上的较高鲁棒性和普适性。
c) 结论与研究价值科学价值：
该研究证明了机器学习在医疗领域，尤其是在罕见病早期诊断方面的巨大潜力。
表明大规模的EHR数据用于机器学习可以有效缩短罕见病的诊断时间，减少患者的痛苦和医疗资源的浪费。
应用价值：
PheneT为临床诊断提供了新的方法和工具，它可以帮助医生更早地识别潜在的CVID患者，对患者进行早期干预，从而改善病人的预后。
医疗系统可利用此算法在广泛的人群中进行筛查，提高罕见病的识别率，优化医疗资源分配。
d) 研究亮点创新性：
PheneT算法结合了机器学习和大规模EHR数据，探索了传统方法无法涵盖的复杂病理特征。
用于CVID的综合风险评分模型改进了现有方法，并在跨机构的验证中展现出了较高的可靠性。
临床影响：
通过PheneT，可以显著减少CVID的诊断延迟，节约大量医疗资源，并改善患者的生活质量和预后。
通过对EHR数据进行系统性的分析，PheneT算法展示出在复杂罕见病诊断中的巨大潜力，为未来医疗AI的应用提供了极具价值的参考。