使用病历预测现象广泛的疾病发生并支持对新兴健康威胁的快速响应
使用病历预测现象广泛的疾病发生并支持对新兴健康威胁的快速响应
研究背景和动机
新冠疫情暴露了全球系统性、数据驱动指导缺乏的问题,这对识别高风险人群以及应对疫情准备造成了严重影响。个体未来疾病风险评估对于指导预防干预、早期疾病检测和治疗启动至关重要。然而,对于常见疾病,只有一小部分有定制的风险评分,医疗提供者和个人对于大多数相关疾病缺乏指导。即便在有既定风险评分的情况下,对于使用哪种评分和相关的生理或实验室测量也缺乏共识,导致常规医疗实践高度碎片化。特别是在新冠疫情初期,由于缺乏可用数据,无法识别脆弱人群的风险评分不可用。
同时,大多数医学决策,包括诊断、治疗和预防疾病,都是基于个人的医学史。随着数字化的普及,这些信息已经被医疗提供者、保险公司和政府以电子健康记录的形式收集,但由于人类处理和理解海量数据的能力有限,这些易获取的记录在改善医学决策方面的潜力仍然有限。
在现有研究中,电子健康记录被用于指导临床决策,进行病因学、诊断和预后研究。尽管一些努力已经将已知的临床预测因子与新方法结合起来,或利用其他数据模式如临床笔记,但鲜有研究探索了整个健康现象范围内的预测潜力。因此,系统性利用常规收集的健康记录来指导医学决策的潜力仍然未被充分挖掘。
研究来源
这项研究由Jakob Steinfeldt、Benjamin Wild、Thore Buergel、Maik Pietzner、Julius Upmeier Zu Belzen、Andre Vauvelle、Stefan Hegselmann、Spiros Denaxas、Harry Hemingway、Claudia Langenberg、Ulf Landmesser、John Deanfield和Roland Eils撰写。作者分别来自德国、英国和美国多个知名机构。该论文于2024年发表在《Nature Communications》杂志上。
研究流程
数据收集与描述
本研究基于英国生物银行(UK Biobank)和“我们大家”(All of Us)队列。UK Biobank包括502,460名主要为英国后裔的健康个体,他们的中位年龄为58岁,54.4%为女性。个体在2006年至2010年招募,随访中位数为12.6年。研究考察了1883种现象范围内的终点,并将这些数据用于开发和验证模型。All of Us队列包括229,830名来自美国的多样化人群。个体的中位年龄为54岁,61.1%为女性。该队列从2019年开始招募,中位随访时间为3.5年。
模型开发与验证
研究采用神经网络模型学习个体的全部医学史,用以预测多种疾病的风险。开发、训练和验证了一个多层感知器神经网络,该网络在UK Biobank队列中训练,用于从常规收集的健康记录中估算疾病风险。与传统方法如线性模型或生存树需要为每种疾病分别建立模型不同,本方法通过一个神经网络同时预测多个终点,显著简化了模型结构。
为了确认这些模型的普适性,研究在All of Us队列中进行了外部验证,验证了模型在不同医疗系统和人群中的表现。此外,还探索了该方法在心血管疾病预防和新冠肺炎(二次感染、全因死亡)等新兴健康威胁中的应用。
数据整合与分析
在进行进一步分析之前,研究将所有健康记录映射到OMOP词汇表中。研究发现,主要记录域是药物和观察,其次是条件、程序和设备。研究还排除了非常罕见的概念,保留了15,595个独特概念,并使用多任务多层感知器(88.4m参数)同时预测1883个终点的现象范围发生情况,同时与基准线性模型进行了比较。
风险状态与事件发生
为评估健康记录是否能用来识别高风险人群,研究分析了神经网络估算的每个终点的风险状态与未来疾病风险的关系。结果显示,对于绝大多数终点,风险状态的最高和最低10%人群之间的事件发生率存在显著差异。这一现象横跨多种疾病类别和病因学,包括风湿性关节炎、缺血性心脏病和慢性阻塞性肺疾病等。
研究结果
模型性能
研究发现,对于1774(94.2%)个终点,基于医学史的模型显著优于仅考虑年龄和性别的基线模型。特别是对于常见疾病和社会负担较重的病症,模型在区分高风险和低风险个体方面表现出色。
外部验证
在All of Us队列中的外部验证显示,对于1347(85.9%)个终点,基于医学史的模型同样显著优于基线模型。这表明基于医学史的风险预测模型在不同医疗系统和多样化人群中具有良好的通用性。
疾病预防与新兴健康威胁应对
研究进一步展示了此方法在心血管疾病预防和应对新冠肺炎等新兴健康威胁中的潜力。基于医学史的风险预测模型可以在初期识别高风险人群,从而帮助优化防疫和治疗策略。
结论
这项研究证明了利用常规健康记录系统地评估现象范围内疾病风险的潜力,这些风险状态可以用于快速响应新兴健康威胁,如新冠肺炎。研究结果表明,这种方法不仅具有科学价值,而且在医疗实践中有广泛的应用前景。
研究亮点
- 方法新颖性:使用神经网络同时预测多个终点,简化了模型结构。
- 广泛适用性:模型在不同医疗系统和多样化人群中的表现优异。
- 实用意义:模型可以用于心血管疾病预防和应对新兴健康威胁,如新冠肺炎。
这项研究展示了如何利用已收集的数据链接临床实践,指导预防干预和疾病早期诊断及治疗,为未来大规模人口健康管理提供了新的思路。