多中心外部验证儿科患者30天院内死亡率的术前风险评分

国际多中心外部验证儿科患者30天院内死亡率的术前风险评分

学术背景

儿科患者的围手术期死亡率虽然较低(<0.5%),但仍然是临床实践中的一个重要问题。传统的风险评估工具,如美国麻醉医师协会(ASA)身体状况评分(ASA Physical Status, ASA PS),虽然简洁,但无法全面反映儿科患者的个体化风险。为了更好地预测儿科患者的围手术期死亡率,研究人员开发了多种风险预测评分模型。这些模型结合了患者的人口统计学特征、合并症、术前生理数据、药物使用以及手术特征等多种因素,旨在为临床决策提供支持。

然而,这些风险评分模型在临床实践中的应用需要经过外部验证,以确保其在不同时间、地点和人群中的有效性。此前的研究中,仅有少数儿科围手术期死亡率风险评分模型进行了外部验证。因此,本研究的主要目标是通过多中心围手术期结果组(Multicenter Perioperative Outcomes Group, MPOG)注册数据,对两种儿科患者30天院内死亡率的风险评分模型进行外部验证,并对其进行重新校准。

论文来源

本论文由来自多个机构的作者共同完成,主要作者包括Virginia E. Tangel(Erasmus University Medical Centre, Rotterdam, Netherlands; Weill Cornell Medicine, New York, NY, USA)、Sanne E. Hoeks(Erasmus University Medical Centre, Rotterdam, Netherlands)、Robert Jan Stolker(Erasmus University Medical Centre, Rotterdam, Netherlands)等。论文于2024年10月29日在线发表于《British Journal of Anaesthesia》(BJA),DOI为10.1016/j.bja.2024.09.003。

研究流程

数据来源与研究人群

本研究使用了MPOG数据库中的数据,该数据库包含了来自美国和荷兰多家医院的麻醉记录,涵盖了患者的合并症、药物使用、生命体征、手术类型和围手术期结局等信息。研究纳入了2015年10月1日至2020年12月31日期间,年龄小于18岁的儿科患者,排除了心脏手术和诊断性影像学检查的病例。最终,研究共纳入了606,488例病例,涉及56家医院。

风险评分模型的外部验证

本研究主要验证了两种风险评分模型:儿科风险评估评分(Pediatric Risk Assessment, PRAM)内在手术风险评分(Intrinsic Surgical Risk Score)。这两种评分模型均基于美国外科医师学会国家手术质量改进计划-儿科(ACS NSQIP-P)数据开发,并在本研究中通过MPOG数据进行了外部验证。

1. PRAM评分的外部验证

PRAM评分模型包含了多个预测变量,如紧急手术、呼吸系统疾病、先天性心脏病、术前急性或慢性肾病等。由于MPOG数据库中缺少部分变量(如术前心肺复苏),这些变量在验证过程中被省略。通过逻辑回归模型,PRAM评分在外部验证中的表现如下: - AUROC(受试者工作特征曲线下面积):0.856(95% CI: 0.844-0.869) - AUC-PR(精确率-召回率曲线下面积):0.008

尽管PRAM评分在低死亡率概率下表现出良好的校准,但在高死亡率概率下表现较差。决策曲线分析显示,PRAM评分在临床实践中的应用价值有限。

2. 内在手术风险评分的外部验证

内在手术风险评分模型包含了新生儿、体重<5kg、ASA PS评分等变量。由于MPOG数据库中无法重建“内在手术风险”这一变量,该变量在验证过程中被省略。通过逻辑回归模型,内在手术风险评分在外部验证中的表现如下: - AUROC:0.925(95% CI: 0.914-0.936) - AUC-PR:0.085

与PRAM评分相比,内在手术风险评分在区分能力上表现更好,但仍然存在大量假阳性病例。决策曲线分析显示,该评分在临床实践中的应用价值同样有限。

重新校准模型

为了进一步提高模型的预测能力,研究对PRAM评分和内在手术风险评分进行了重新校准。重新校准后的PRAM评分的AUROC为0.873(95% CI: 0.861-0.886),AUC-PR为0.031;内在手术风险评分的AUROC为0.925(95% CI: 0.915-0.936),AUC-PR为0.094。尽管重新校准后模型的区分能力有所提高,但整体表现仍然低于原始研究。

主要结果

  1. PRAM评分:在外部验证中,PRAM评分的AUROC为0.856,AUC-PR为0.008。重新校准后,AUROC提高至0.873,AUC-PR提高至0.031。尽管区分能力有所改善,但PRAM评分在高死亡率概率下的校准表现较差,且决策曲线分析显示其临床应用价值有限。

  2. 内在手术风险评分:在外部验证中,内在手术风险评分的AUROC为0.925,AUC-PR为0.085。重新校准后,AUROC保持不变,AUC-PR提高至0.094。尽管该评分在区分能力上优于PRAM评分,但仍然存在大量假阳性病例,且决策曲线分析显示其临床应用价值有限。

结论

本研究通过MPOG数据对PRAM评分和内在手术风险评分进行了外部验证和重新校准。尽管内在手术风险评分在区分能力上优于PRAM评分,但两种评分模型在外部验证中的表现均低于原始研究。校准指标由于大量低死亡率病例的存在而显得较为有利,但在高死亡率概率下,两种评分模型均表现出过度预测的倾向。决策曲线分析显示,使用这两种评分模型在临床实践中的益处有限。

研究亮点

  1. 外部验证的重要性:本研究强调了风险评分模型在临床应用中必须经过外部验证的必要性。尽管PRAM评分和内在手术风险评分在原始研究中表现良好,但在外部验证中的表现却有所下降,这表明风险评分模型在不同数据集中的适用性可能存在差异。

  2. 临床判断的价值:内在手术风险评分的优越表现主要归功于ASA PS评分,这表明临床判断在预测高风险儿科患者的死亡率方面可能比风险评分模型更为有效。

  3. 假阳性问题:两种评分模型均产生了大量假阳性病例,这在临床实践中可能导致不必要的资源分配,但相较于假阴性病例,假阳性病例对患者结局的影响较小。

研究意义

本研究通过外部验证揭示了PRAM评分和内在手术风险评分在临床实践中的局限性。尽管这两种评分模型在原始研究中表现良好,但在外部验证中的表现却有所下降,这表明风险评分模型在不同数据集中的适用性可能存在差异。此外,研究结果还表明,临床判断在预测高风险儿科患者的死亡率方面可能比风险评分模型更为有效。未来的研究应进一步探索如何改进风险评分模型,以提高其在临床实践中的应用价值。

其他有价值的信息

本研究的局限性在于MPOG数据库中缺少部分关键变量(如术前心肺复苏和内在手术风险),这可能导致评分模型在外部验证中的表现下降。此外,MPOG数据库主要来源于美国的学术医疗中心,可能无法完全代表其他地区或资源有限环境中的儿科患者群体。未来的研究应在更广泛的人群中进行验证,以进一步评估这些风险评分模型的适用性。