基于心电图的机器学习算法在全人群水平进行心血管疾病的诊断和验证
基于心电图的大规模心血管诊断机器学习算法的开发与验证
引言
心血管疾病(Cardiovascular diseases,CV)一直是全球范围内疾病负担的主要来源,早期诊断和干预对降低疾病并发症、医疗使用率和费用至关重要。传统的心电图(Electrocardiogram,ECG)作为一种低成本且便捷的诊断工具,广泛应用于心血管疾病的检测。然而,现有的ECG解释技术(包括人工和计算机算法)在识别高层次信号互动及“隐藏”的临床相关模式方面存在局限。人工智能(Artificial Intelligence,AI)尤其是深度学习(Deep Learning,DL)的出现,提供了识别ECG信号中“隐藏”模式并同时评估多种心血管疾病的复杂互动关系的全新契机。本研究正是基于这一背景展开。
论文来源与作者
本文发表于《npj Digital Medicine》期刊,是由Sunil Vasu Kalmady,Amir Salimi,Weijie Sun,Nariman Sepehrvand,Yousef Nademi,Kevin Bainey,Justin Ezekowitz,Abram Hindle,Finlay McAlister,Russel Greiner,Roopinder Sandhu 与 Padma Kaul 等多个研究机构的研究人员合作完成,特别是在首尔国立大学Bundang医院的基础上进行的联合研究。
研究流程
研究对象与数据收集
本次研究采用2007年2月至2020年4月期间,在加拿大阿尔伯塔省的84个急诊科或医院进行的244,077名成人患者所提供的1,605,268个12导联ECG数据。研究目标是同时预测15种常见心血管诊断,包括房颤、室上性心动过速、室性心动过速、心脏骤停、房室传导阻滞、不稳定型心绞痛、ST段抬高型心肌梗死、非ST段抬高型心肌梗死、肺栓塞、肥厚性心肌病、主动脉瓣狭窄、二尖瓣脱垂、二尖瓣狭窄、肺动脉高压和心力衰竭。
模型开发与验证
研究采用基于ResNet深度学习模型(利用ECG波形数据)以及极限梯度提升(Extreme Gradient Boosting,XGB)模型(利用ECG测量数据)两种不同的方法进行疾病预测,并在一个97,631名测试患者的保持集上进行模型评估。
手术流程详细说明
- 初始数据处理:从患者的健康记录中提取ECG数据,并将这些数据与规范的行政健康数据库进行关联。
- 模型训练:利用146,446名患者的ECG数据对深度学习模型与XGB模型进行训练。
- 保持集评估:在97,631名患者的保持集中进行验证,通过比较每名患者的第一个ECG数据来评估模型性能。
- 特征重要性分析:利用梯度加权类激活映射(Grad-CAM)进行深度学习模型的可视化解释,以及利用信息增益进行XGB模型的特征重要性分析。
性能评估
在保持集上对15种心血管疾病的模型性能进行评估,其中DL模型对所有疾病的平均受试者工作特征曲线下面积(AUROC)高于XGB模型约5%,部分病例提升显著。DL模型对ST段抬高型心肌梗死的预测性能最佳,其AUROC达到95.5%,而对肺栓塞的性能最差,AUROC为68.9%。
性别和起搏器分析
研究还分别评估了DL模型在男性和女性及装有起搏器患者中的性能表现,结果显示模型性能相对一致,男性中某些疾病(如室性心动过速,ST段抬高型心肌梗死等)的预测性能略优于女性,起搏器的存在对模型性能影响不大。
主要结果
- 模型有效性:DL模型对12种心血管疾病的AUROC超过80%,其中4种疾病(包括ST段抬高型心肌梗死、二尖瓣狭窄、肥厚性心肌病和房室传导阻滞)的AUROC超过90%。
- 性能提升:DL模型在预测大多数疾病时均优于XGB模型,尤其是在二尖瓣狭窄和心肌梗死的检测中,DL模型的性能提升显著。
- 模型鲁棒性:模型在不同性别和带有起搏器患者中的表现一致,表明算法的稳健性。
结论
本研究证明了AI驱动的ECG算法在诊断15种心血管疾病方面的有效性和鲁棒性,特别是DL模型相较于XGB模型在诊断精度方面表现更优。通过利用全面的行政数据库,研究展示了机器学习算法在常见心血管疾病诊断中的巨大潜力,为临床实践中的早期诊断和风险分层提供了新的工具,未来需要进一步探索这些模型在实际临床应用中的部署和效果。