Évaluation participative de la reconstruction subclonale de tumeurs à partir d'un seul échantillon

Algorithme de reconstruction des sous-clones tumoraux à échantillon unique basé sur les ressources du groupe

Introduction

Le processus évolutif du cancer et l’hétérogénéité génétique des tumeurs sont des domaines clés de la recherche oncologique moderne. Les tumeurs évoluent à partir de cellules normales en acquérant progressivement des mutations somatiques. Ces mutations se produisent de manière probabiliste, influencées par la structure de la chromatine cellulaire et les pressions mutagènes endogènes et exogènes. Si une mutation particulière confère un avantage sélectif à une cellule, ses cellules filles peuvent s’étendre dans leur environnement local. Après des années d’accumulation, cela forme une population cellulaire avec divers marqueurs de cancer, appelés clones. Différents sous-groupes de cellules tumorales (sous-clones) peuvent apparaître dans la population cellulaire en raison de la dérive ou de la pression sélective. Cette caractéristique évolutive a une importance clinique, l’hétérogénéité génétique étant associée à un pronostic plus défavorable, plus de mutations et une résistance aux traitements. Ainsi, comprendre et quantifier le processus évolutif des tumeurs est crucial pour le traitement du cancer et l’évaluation du pronostic.

La reconstruction des sous-clones tumoraux est une méthode courante pour quantifier les caractéristiques évolutives des tumeurs en utilisant les fréquences alléliques des variations somatiques mononucléotidiques (SNVs) et des anomalies du nombre de copies (CNAs). De nombreux algorithmes ont été développés pour cette tâche, utilisant diverses stratégies telles que l’inférence bayésienne. Cependant, il existe des différences significatives dans la précision et l’applicabilité de ces algorithmes, et il n’est pas encore clair comment quantifier au mieux leur précision. Par conséquent, il est essentiel d’évaluer les algorithmes de reconstruction des sous-clones existants et de déterminer les facteurs de leur précision.

Source et informations de publication

Cet article, intitulé “Crowd-sourced benchmarking of single-sample tumor subclonal reconstruction”, a été rédigé par Adriana Salcedo et al. et publié dans la revue Nature Biotechnology. L’étude a bénéficié de la collaboration de plusieurs institutions, dont l’Université de Californie à Los Angeles, l’Université libre de Bruxelles et l’Institut de recherche sur le cancer de l’Ontario. Cette recherche est basée sur le défi de reconnaissance des mutations somatiques (SMC-Het Challenge) de l’ICGC-TCGA (International Cancer Genome Consortium - The Cancer Genome Atlas) DREAM, qui s’est déroulé sur une période de 7 ans et a évalué la performance de 31 algorithmes de reconstruction des sous-clones sur 51 tumeurs simulées en utilisant une plateforme de calcul en nuage.

Processus de recherche et méthodes

Conception de l’étude

Pour évaluer les algorithmes de reconstruction des sous-clones tumoraux, l’équipe de recherche a conçu 51 lignées tumorales basées sur le cadre de simulation tumorale du défi SMC-Het de l’ICGC-TCGA, couvrant une large gamme de paramètres biologiques et techniques. Parmi ces tumeurs, 25 sont basées sur les données d’études de génome entier sur le cancer (PCAWG), et les 26 restantes sont basées sur des tumeurs non PCAWG et des cas marginaux de cancer du sein unique. L’équipe a utilisé Bamsurgeon pour simuler des fichiers BAM normaux et tumoraux, GATK Mutect pour identifier les SNVs somatiques, et l’outil Battenberg pour identifier les CNAs somatiques et estimer la pureté tumorale.

Évaluation des algorithmes

Les équipes participantes ont soumis 31 workflows conteneurisés, tous exécutés dans une architecture de cloud reproductible. Les chercheurs ont ajouté cinq algorithmes de référence, dont des prédictions aléatoires, l’algorithme de clustering “brute force informée” de PCAWG, un algorithme d’affectation de cluster unique et deux algorithmes de pointe (DPClust et PhyloWGS). Chaque méthode a été évaluée dans sept sous-défis : pureté (SC1a), nombre de sous-clones (SC1b), fréquence des SNV (SC1c), clusters de mutations (SC2) et lignées (SC3), avec des tâches déterministes (SC2a et SC3a) et probabilistes (SC2b et SC3b) pour SC2 et SC3. Chaque prédiction a été notée en utilisant un cadre établi, et les scores ont été normalisés au sein des {tumeurs, sous-défis}.

Principaux résultats de la recherche

Évaluation des performances des algorithmes

La recherche a révélé des différences significatives de performance entre les algorithmes sur les sept tâches, le choix de l’algorithme ayant un impact bien plus important que les caractéristiques de la tumeur. En particulier, aucun algorithme unique n’a excellé dans toutes les tâches, et les stratégies d’intégration existantes n’ont pas surpassé les meilleures méthodes individuelles, indiquant qu’il reste encore beaucoup de recherches à faire dans le domaine des algorithmes de reconstruction des sous-clones.

Meilleurs algorithmes

L’équipe de recherche a classé les algorithmes en fonction du score médian de toutes les tumeurs et a trouvé un soumission performante dans SC1a et SC2b, tandis que SC1b et SC1c avaient deux soumissions statistiquement équivalentes, et SC2a en avait trois. L’algorithme le plus performant de SC1a utilisait uniquement les appels de nombre de copies pour inférer la pureté, tandis que la méthode secondaire combinait les estimations de pureté des clusters SNV et du nombre de copies.

Analyse des facteurs influents

L’analyse des caractéristiques des tumeurs et des algorithmes a révélé que seules quelques caractéristiques tumorales influençaient fortement la précision de la reconstruction. La sensibilité à des caractéristiques tumorales spécifiques expliquait les différences entre les algorithmes en termes de détection des variations et de résolution des données. En particulier, la pureté tumorale, l’état du nombre de copies et la charge mutationnelle affectaient significativement la performance de nombreux algorithmes, tandis que les algorithmes basés sur un modèle de bruit gaussien performaient mal dans les tâches de co-clustering des SNVs.

Influence des caractéristiques intrinsèques des données et de la conception expérimentale sur la précision

L’étude a montré que le principal paramètre technique contrôlable dans la conception expérimentale était la couverture de séquençage. En ajustant la couverture de séquençage pour prendre en compte la pureté tumorale et la ploïdie, les chercheurs ont quantifié l’effet du NRPCC (nombre de lectures par copie de chromosome) sur la reconstruction des sous-clones. Les résultats ont montré que plus le NRPCC était élevé, meilleure était la performance des algorithmes en matière de co-clustering des SNVs et d’estimation de la pureté tumorale. Cependant, à des niveaux élevés de NRPCC, les différences entre les algorithmes devenaient la principale source de variation.

Analyse des sources d’erreur

L’étude a également exploré les sources d’erreur dans l’estimation de la fréquence des SNVs. La plupart des algorithmes déterminaient avec précision si un SNV était une mutation clonale, mais performaient mal dans la détection des mutations sous-clonales à faible fréquence. De plus, l’état sous-jacent du nombre de copies affectait significativement la précision de l’affectation clonale des SNVs, en particulier dans les régions de perte de nombre de copies des sous-clones. Les algorithmes basés sur un modèle de bruit gaussien performaient mal pour les variations à faible fréquence, et la robustesse d’un algorithme aux variations du nombre de copies était fortement corrélée à sa performance globale.

Conclusion

Cette étude a systématiquement évalué la performance de 31 algorithmes de reconstruction des sous-clones tumoraux à échantillon unique sur 51 tumeurs simulées, révélant l’impact significatif du choix de l’algorithme et de la conception expérimentale sur la précision de la reconstruction. Les résultats de la recherche contribueront à améliorer l’application des méthodes existantes et au développement de nouvelles méthodes pour mieux comprendre le processus évolutif des tumeurs. En outre, l’équipe de recherche a fourni un outil en ligne pour aider les utilisateurs à choisir le meilleur algorithme en fonction des ensembles de données et des questions de recherche.

Importance de la recherche

Cette étude fournit une norme pour l’évaluation des algorithmes de reconstruction des sous-clones tumoraux, favorisant la comparaison et l’amélioration des différents algorithmes. En révélant les principaux facteurs influençant la performance des algorithmes, cette recherche offre des orientations importantes pour le développement et l’optimisation futurs des algorithmes. Parallèlement, cette étude souligne l’importance des données de séquençage de haute qualité et d’une conception expérimentale appropriée dans la recherche sur l’évolution tumorale, fournissant des références précieuses pour le traitement clinique du cancer et l’évaluation du pronostic.