Identification des Mutations Conductrices de l'Hématopoïèse Clonale via la Mutagenèse de Saturation in Silico

Introduction

Dans le processus hématopoïétique sain, un groupe de cellules souches hématopoïétiques (Hematopoietic Stem Cells, abrégé HSC) contribue à toutes les lignées associées au sang. Cependant, avec l’âge, ce processus conduit souvent à l’hématopoïèse clonale (Clonal Hematopoiesis, abrégé CH), c’est-à-dire à l’expansion clonale des HSC, occupant une grande partie des cellules sanguines et des plaquettes. Ce phénomène d’expansion clonale est conduit par les mutations somatiques acquises par les HSC au cours de la vie et est très courant chez les populations âgées. Les mutations génétiques associées à la CH confèrent un avantage de croissance aux HSC, les soumettant ainsi à une sélection positive dans le processus hématopoïétique (1-13). Ces dernières années, de nombreuses études ont montré que la CH est associée au développement de tumeurs malignes du sang, de maladies cardiovasculaires, de la mortalité toutes causes confondues, ainsi qu’à l’augmentation du risque de tumeurs solides et de maladies infectieuses (2, 7, 14-20). Bien que des recherches récentes aient identifié environ 60 gènes moteurs de la CH (1, 12, 13, 21), notre compréhension des mutations spécifiques de ces gènes pouvant conduire à l’expansion clonale reste très limitée.

Des équipes de recherche ont résumé les connaissances sur plusieurs gènes de la CH et élaboré une série de règles dirigées par des experts pour sélectionner les mutations les plus susceptibles de conduire à la CH. Ces règles sont généralement appliquées en combinaison avec des étapes de filtration strictes des variants identifiés dans le sang des individus sains. Cependant, ces règles présentent des limites, telles que l’incapacité d’apprendre directement des informations des mutations de la CH ou de se mettre à jour systématiquement, et elles couvrent un nombre hétérogène de gènes avec une profondeur de connaissance variable.

Pour surmonter ces obstacles, les chercheurs ont adopté une approche basée sur l’apprentissage automatique, en construisant des modèles explicatifs entraînés sur les données disponibles de haute qualité des mutations de la CH. Ces modèles peuvent révéler des motifs complexes dans les mutations de la CH et peuvent s’étendre avec l’apparition de nouveaux jeux de données de mutations de la CH (paragraphe 28 de cet article). L’objectif de cette étude est de construire des modèles pour 12 gènes moteurs de la CH en utilisant cette méthode, afin d’identifier avec précision les mutations de la CH et de valider leurs performances sur près de cinq cent mille donneurs de la biobanque britannique (UK Biobank).

Sources de l’étude

Cet article est écrit par Santiago Demajo et al., provenant de l’Institute for Research in Biomedicine (IRB Barcelona), du Centro de Investigación Biomédica en Red en Cáncer (CIBERONC) et de l’Universitat Pompeu Fabra, entre autres institutions. L’article a été publié dans le numéro de septembre 2024 du journal “Cancer Discovery”.

Processus de recherche

Conception expérimentale et méthodes

  1. Collecte et traitement des données :

L’équipe de recherche a d’abord recueilli les données de plus de 33 000 patients atteints de cancer provenant de trois grandes cohortes génomiques du cancer (TCGA, HMF, MSK-IMPACT). En supprimant les contaminations germinales par un rappel inversé, ils ont obtenu des données de haute qualité sur les mutations somatiques dans le sang. Ces données ont été utilisées pour entraîner des modèles d’apprentissage automatique afin d’identifier les mutations motrices de la CH.

  1. Construction et validation des modèles :

L’équipe de recherche a utilisé XGBoost (Version 0.90) pour entraîner des modèles spécifiques aux gènes, appelés BOOSTDM-CH. L’entraînement des modèles s’appuie sur un ensemble d’échantillons positifs de haute qualité (mutations connues de la CH) et d’échantillons négatifs (ensemble synthétique de mutations neutres). Les caractéristiques comprennent l’agrégation significative des mutations dans la séquence linéaire, l’agrégation dans la structure tridimensionnelle, l’enrichissement des domaines fonctionnels, le type de résultat des mutations et leur degré de conservation chez les vertébrés.

  1. Conception expérimentale :

Les chercheurs ont conçu des expériences de validation croisée pour évaluer les performances des modèles et ont également permis aux modèles d’interpréter les résultats de la prédiction (par exemple, analyser la contribution des caractéristiques basées sur les valeurs SHAP).

Principaux résultats expérimentaux

  1. Évaluation de la performance des modèles :

Le modèle BOOSTDM-CH a démontré des performances supérieures dans la validation croisée, par exemple pour le gène DNMT3A, avec des valeurs F50 variant entre 0.86 et 0.99. Ces modèles ont montré une supériorité claire par rapport aux règles dirigées par des experts en classifiant les mutations observées de la CH comme motrices ou non.

  1. Application à une vaste cohorte :

Dans le jeu de données de la biobanque britannique, l’équipe de recherche a appliqué le modèle BOOSTDM-CH pour identifier 201 857 mutations potentielles parmi 467 202 donneurs et les a classées. Les mutations motrices de la CH identifiées par le modèle montraient un unique moteur dans 92,5% des cas, semblable aux moteurs observés en réalité. Les réponses ont établi une corrélation statistiquement significative avec des traits cliniques tels que l’âge, l’historique de tabagisme, les maladies cardiovasculaires, les tumeurs malignes du sang et la mortalité toutes causes confondues.

  1. Analyse de la distribution et des caractéristiques des variants :

En utilisant le modèle BOOSTDM-CH, l’équipe de recherche a pu analyser en profondeur les mutations motrices de la CH en se basant sur les scores des modèles. Par exemple, dans le DNMT3A, les mutations à haute confiance (score ≥0,9) se concentraient dans des régions spécifiques, indiquant que ces mutations perturbaient de manière significative la fonction normale de la protéine.

Conclusions de la recherche

Cet article démontre la supériorité des modèles basés sur l’apprentissage automatique pour identifier les mutations motrices dans 12 gènes de la CH. Ces modèles surpassent les règles traditionnelles dirigées par des experts et révèlent des motifs et des mécanismes de mutations de la CH plus complexes. Le modèle BOOSTDM-CH montre une précision remarquable dans l’identification des mutations motrices de la CH, fournissant un outil puissant pour des recherches futures et des études de cohortes à grande échelle sur l’association de la CH avec diverses maladies.

Points forts de l’étude

  1. Application de méthodes d’apprentissage automatique :

Cette étude est la première à appliquer avec succès les méthodes d’apprentissage automatique pour identifier les mutations motrices de la CH, évitant ainsi les biais subjectifs des règles dirigées par des experts, et démontre une innovation significative.

  1. Validation à grande échelle :

L’étude a validé les performances des modèles sur la vaste cohorte de la biobanque britannique, montrant que le modèle peut identifier avec précision les mutations motrices de la CH et établir des corrélations significatives avec divers traits cliniques.

  1. Compréhension approfondie des mécanismes de la CH :

En entraînant et en appliquant le modèle BOOSTDM-CH, l’étude offre de nouvelles perspectives et outils pour comprendre les mécanismes des mutations de la CH dans différents gènes.

Informations supplémentaires et perspectives futures

L’équipe de recherche a rendu public le modèle BOOSTDM-CH ainsi que ses données associées sur le site web d’Intogen (www.intogen.org/ch/boostdm) pour l’usage de la communauté de recherche et prévoit d’étendre et d’optimiser le modèle à mesure que de nouveaux jeux de données deviennent disponibles. À l’avenir, ce modèle possède un large potentiel d’application dans les études cliniques rétrospectives ou prospectives à grande échelle, contribuant à surveiller la santé des individus à haut risque et à soutenir la création de plans de traitement personnalisés.

Conclusion

Cette étude démontre le potentiel du modèle BOOSTDM-CH basé sur l’apprentissage automatique pour identifier et analyser les mutations motrices de la CH, proposant une méthode novatrice et efficace pour la recherche sur la CH et l’analyse précise des données de cohortes à grande échelle. En exploitant les données de la biobanque britannique et d’autres vastes cohortes, le modèle BOOSTDM-CH aide les scientifiques à mieux comprendre les mécanismes de la CH et fournit des ressources précieuses pour les futures recherches et applications cliniques.