Validation externe multi-institutionnelle internationale des scores de risque préopératoire pour la mortalité hospitalière à 30 jours chez les patients pédiatriques

Validation externe multicentrique internationale des scores de risque préopératoire pour la mortalité hospitalière à 30 jours chez les patients pédiatriques

Contexte académique

La mortalité périopératoire chez les patients pédiatriques, bien que faible (,5 %), reste un problème important dans la pratique clinique. Les outils traditionnels d’évaluation des risques, tels que le score de statut physique de l’American Society of Anesthesiologists (ASA Physical Status, ASA PS), bien que simples, ne reflètent pas de manière exhaustive les risques individualisés des patients pédiatriques. Pour mieux prédire la mortalité périopératoire chez les patients pédiatriques, les chercheurs ont développé plusieurs modèles de scores de prédiction des risques. Ces modèles intègrent des facteurs tels que les caractéristiques démographiques des patients, les comorbidités, les données physiologiques préopératoires, l’utilisation de médicaments et les caractéristiques chirurgicales, dans le but de soutenir la prise de décision clinique.

Cependant, l’application de ces scores de risque dans la pratique clinique nécessite une validation externe pour garantir leur efficacité à différents moments, dans différents lieux et populations. Dans les études précédentes, seuls quelques modèles de scores de risque de mortalité périopératoire pédiatrique ont été validés de manière externe. Par conséquent, l’objectif principal de cette étude était de valider de manière externe deux modèles de scores de risque pour la mortalité hospitalière à 30 jours chez les patients pédiatriques en utilisant les données du registre du Multicenter Perioperative Outcomes Group (MPOG), et de les recalibrer.

Source de l’article

Cet article a été rédigé par des auteurs issus de plusieurs institutions, dont les principaux auteurs sont Virginia E. Tangel (Erasmus University Medical Centre, Rotterdam, Pays-Bas ; Weill Cornell Medicine, New York, NY, États-Unis), Sanne E. Hoeks (Erasmus University Medical Centre, Rotterdam, Pays-Bas), Robert Jan Stolker (Erasmus University Medical Centre, Rotterdam, Pays-Bas), entre autres. L’article a été publié en ligne le 29 octobre 2024 dans le British Journal of Anaesthesia (BJA), avec le DOI 10.1016/j.bja.2024.09.003.

Processus de recherche

Source des données et population étudiée

Cette étude a utilisé les données de la base de données MPOG, qui contient des enregistrements d’anesthésie provenant de plusieurs hôpitaux aux États-Unis et aux Pays-Bas, couvrant les comorbidités des patients, l’utilisation de médicaments, les signes vitaux, les types de chirurgie et les résultats périopératoires. L’étude a inclus des patients pédiatriques de moins de 18 ans entre le 1er octobre 2015 et le 31 décembre 2020, en excluant les cas de chirurgie cardiaque et les examens d’imagerie diagnostique. Au total, 606 488 cas provenant de 56 hôpitaux ont été inclus dans l’étude.

Validation externe des scores de risque

L’étude a principalement validé deux modèles de scores de risque : le score d’évaluation des risques pédiatriques (Pediatric Risk Assessment, PRAM) et le score de risque chirurgical intrinsèque (Intrinsic Surgical Risk Score). Ces deux modèles de scores ont été développés à partir des données de l’ACS NSQIP-P (American College of Surgeons National Surgical Quality Improvement Program-Pediatric) et ont été validés de manière externe dans cette étude en utilisant les données MPOG.

1. Validation externe du score PRAM

Le modèle de score PRAM comprend plusieurs variables prédictives, telles que la chirurgie urgente, les maladies respiratoires, les cardiopathies congénitales, les maladies rénales aiguës ou chroniques préopératoires, etc. En raison de l’absence de certaines variables dans la base de données MPOG (comme la réanimation cardiopulmonaire préopératoire), ces variables ont été omises lors de la validation. À l’aide d’un modèle de régression logistique, les performances du score PRAM lors de la validation externe étaient les suivantes : - AUROC (aire sous la courbe ROC) : 0,856 (IC à 95 % : 0,844-0,869) - AUC-PR (aire sous la courbe de précision-rappel) : 0,008

Bien que le score PRAM ait montré une bonne calibration pour les probabilités de mortalité faibles, ses performances étaient médiocres pour les probabilités de mortalité élevées. L’analyse des courbes de décision a montré que l’utilisation du score PRAM en pratique clinique avait une valeur limitée.

2. Validation externe du score de risque chirurgical intrinsèque

Le modèle de score de risque chirurgical intrinsèque comprend des variables telles que le statut de nouveau-né, le poids kg, le score ASA PS, etc. En raison de l’impossibilité de reconstruire la variable “risque chirurgical intrinsèque” dans la base de données MPOG, cette variable a été omise lors de la validation. À l’aide d’un modèle de régression logistique, les performances du score de risque chirurgical intrinsèque lors de la validation externe étaient les suivantes : - AUROC : 0,925 (IC à 95 % : 0,914-0,936) - AUC-PR : 0,085

Comparé au score PRAM, le score de risque chirurgical intrinsèque a montré une meilleure capacité de discrimination, mais il a également généré un grand nombre de faux positifs. L’analyse des courbes de décision a montré que son utilisation en pratique clinique avait une valeur limitée.

Recalibration des modèles

Afin d’améliorer davantage la capacité prédictive des modèles, l’étude a recalibré les scores PRAM et de risque chirurgical intrinsèque. Après recalibration, l’AUROC du score PRAM était de 0,873 (IC à 95 % : 0,861-0,886) et l’AUC-PR de 0,031 ; l’AUROC du score de risque chirurgical intrinsèque était de 0,925 (IC à 95 % : 0,915-0,936) et l’AUC-PR de 0,094. Bien que la capacité de discrimination des modèles se soit améliorée après recalibration, leurs performances globales restaient inférieures à celles des études originales.

Résultats principaux

  1. Score PRAM : Lors de la validation externe, l’AUROC du score PRAM était de 0,856 et l’AUC-PR de 0,008. Après recalibration, l’AUROC est passé à 0,873 et l’AUC-PR à 0,031. Bien que la capacité de discrimination se soit améliorée, la calibration du score PRAM pour les probabilités de mortalité élevées était médiocre, et l’analyse des courbes de décision a montré que son utilisation en pratique clinique avait une valeur limitée.

  2. Score de risque chirurgical intrinsèque : Lors de la validation externe, l’AUROC du score de risque chirurgical intrinsèque était de 0,925 et l’AUC-PR de 0,085. Après recalibration, l’AUROC est resté inchangé et l’AUC-PR est passé à 0,094. Bien que ce score ait montré une meilleure capacité de discrimination que le score PRAM, il a également généré un grand nombre de faux positifs, et l’analyse des courbes de décision a montré que son utilisation en pratique clinique avait une valeur limitée.

Conclusion

Cette étude a validé de manière externe et recalibré les scores PRAM et de risque chirurgical intrinsèque en utilisant les données MPOG. Bien que le score de risque chirurgical intrinsèque ait montré une meilleure capacité de discrimination que le score PRAM, les performances des deux scores lors de la validation externe étaient inférieures à celles des études originales. Les mesures de calibration semblaient favorables en raison du grand nombre de cas à faible probabilité de mortalité, mais les deux scores ont montré une tendance à surestimer la mortalité pour les probabilités élevées. L’analyse des courbes de décision a montré que l’utilisation de ces scores en pratique clinique avait une valeur limitée.

Points forts de l’étude

  1. Importance de la validation externe : Cette étude souligne la nécessité de valider de manière externe les modèles de scores de risque avant leur application clinique. Bien que les scores PRAM et de risque chirurgical intrinsèque aient bien performé dans les études originales, leurs performances ont diminué lors de la validation externe, ce qui suggère que l’applicabilité des modèles de scores de risque peut varier selon les ensembles de données.

  2. Valeur du jugement clinique : La performance supérieure du score de risque chirurgical intrinsèque est principalement due au score ASA PS, ce qui suggère que le jugement clinique peut être plus efficace que les modèles de scores de risque pour prédire la mortalité chez les patients pédiatriques à haut risque.

  3. Problème des faux positifs : Les deux scores ont généré un grand nombre de faux positifs, ce qui pourrait entraîner une allocation inutile de ressources en pratique clinique. Cependant, comparés aux faux négatifs, les faux positifs ont un impact moindre sur les résultats des patients.

Signification de l’étude

Cette étude, à travers la validation externe, a révélé les limites des scores PRAM et de risque chirurgical intrinsèque dans la pratique clinique. Bien que ces scores aient bien performé dans les études originales, leurs performances ont diminué lors de la validation externe, ce qui suggère que l’applicabilité des modèles de scores de risque peut varier selon les ensembles de données. De plus, les résultats de l’étude indiquent que le jugement clinique peut être plus efficace que les modèles de scores de risque pour prédire la mortalité chez les patients pédiatriques à haut risque. Les recherches futures devraient explorer comment améliorer les modèles de scores de risque pour augmenter leur valeur dans la pratique clinique.

Autres informations utiles

Les limites de cette étude incluent l’absence de certaines variables clés dans la base de données MPOG (comme la réanimation cardiopulmonaire préopératoire et le risque chirurgical intrinsèque), ce qui pourrait expliquer la diminution des performances des scores lors de la validation externe. De plus, la base de données MPOG provient principalement de centres médicaux universitaires aux États-Unis et pourrait ne pas représenter entièrement les populations pédiatriques dans d’autres régions ou environnements à ressources limitées. Les recherches futures devraient valider ces scores dans des populations plus larges pour évaluer davantage leur applicabilité.