Limitations dans le génotypage basé sur le séquençage de nouvelle génération des locus de score de risque polygénique du cancer du sein

Limitations du génotypage des loci du score de risque polygénique pour le cancer du sein basé sur le séquençage de nouvelle génération

Contexte

Dans la prédiction du cancer du sein héréditaire (Breast Cancer, BC), les scores de risque polygéniques (Polygenic Risk Scores, PRSs) sont de plus en plus largement utilisés comme un outil important pour la prédiction du risque individuel. Le calcul du PRS dépend de la reproduction précise des fréquences alléliques (Allele Frequencies, AFs) des variants, afin de prédire avec précision la valeur du PRS. Cependant, il existe actuellement de nombreuses limitations techniques lors de l’analyse génotypique du score de risque polygénique utilisant la technologie de séquençage de nouvelle génération (Next-Generation Sequencing, NGS). Le contexte de cette étude réside dans ces défis techniques, qui sont importants pour l’amélioration et l’optimisation des modèles d’évaluation du risque de cancer du sein.

Source de l’étude et contexte des auteurs

Cette étude a été menée par le groupe de travail bioinformatique du Consortium allemand pour le cancer du sein et de l’ovaire héréditaire (German Consortium for Hereditary Breast and Ovarian Cancer, GC-HBOC). L’équipe d’auteurs comprend plusieurs scientifiques issus de diverses universités et institutions de recherche allemandes, notamment : l’hôpital universitaire Carl Gustav Carus, l’université technique de Dresden, l’hôpital universitaire de Münster, l’hôpital universitaire de Regensburg, l’hôpital universitaire de Cologne, l’école de médecine de Hannover et l’hôpital universitaire de Tübingen. Cette étude a été publiée dans l’European Journal of Human Genetics en 2024.

Description détaillée du processus de recherche

Processus de recherche

L’étude s’est déroulée en trois phases principales : 1. Analyse des variants génétiques des sujets : Tout d’abord, l’étude a analysé les AFs des variants PRS dans les échantillons européens de la base de données gnomAD V3.1.2, et vérifié si ces variants pouvaient être convertis vers le génome de référence hg38. Certains emplacements de variants ne correspondaient pas ou étaient manquants. 2. Vérification des ensembles de données du monde réel : Cinq centres GC-HBOC participants ont fourni les AFs des variants PRS dans des ensembles de données du monde réel, qui ont été comparés aux AFs attendus par canrisk, révélant des écarts significatifs pour jusqu’à 24 variants. 3. Solutions de travail possibles dans le diagnostic clinique : L’étude a proposé des solutions possibles pour améliorer les performances du génotypage dans le diagnostic clinique, telles que l’utilisation d’allèles proxy et de sites de variants alternatifs.

Détails expérimentaux

  • Source des échantillons : Cinq unités participantes des centres GC-HBOC, comprenant l’Institut de génétique médicale et de génomique appliquée (Hôpital universitaire de Tübingen), l’Institut de génétique clinique (Hôpital universitaire Carl Gustav Carus), le Département de génétique médicale (Hôpital universitaire de Münster), le Centre pour le cancer du sein et de l’ovaire familial (Hôpital universitaire de Cologne) et l’Institut de génétique humaine (Hôpital universitaire de Regensburg), ont fourni entre 339 et 1410 échantillons.
  • Outils d’analyse : Plusieurs outils de détection de variants ont été utilisés, notamment Dragen, Freebayes et GATK, avec différents modes d’appel (forcé/non forcé). Les données génotypiques ont été principalement générées par WGS et des panels de cancer personnalisés spécifiques.

Méthodes d’analyse des données

  • Annotation des variants : L’étude a utilisé des identifiants de variants correspondant à dbsnp et des annotations de variants de gnomAD.
  • Évaluation et conversion des AF attendus : L’étude a comparé les AF attendus des variants PRS dans la base de connaissances canrisk avec les AF des échantillons européens non finlandais (NFE) dans gnomAD V3.1.2. Les AF ne correspondant pas ou présentant des écarts importants ont été enregistrés en détail.
  • Détermination des AF dépassant le seuil : Les différences absolues ont été classées par ordre décroissant et la méthode du “point de coude” a été appliquée pour déterminer le seuil de proximité du point, afin de sélectionner les AF présentant des écarts significatifs.

Résultats principaux

Génération et analyse des données

  • Écarts d’AF : L’étude a révélé que parmi les 332 variants PRS étudiés, 24 présentaient des écarts significatifs d’AF dans les échantillons gnomAD v3.1.2 par rapport aux AF attendus par canrisk. Ces écarts étaient souvent liés à des artéfacts techniques, tels que des variants situés dans des régions de faible complexité ou ne répondant pas aux critères de filtrage VQSR (Variant Quality Score Recalibration).
  • Détection des variants dans les données du monde réel : Dans l’étude, les données fournies par chaque unité participante ont montré qu’au moins 11 à 23 loci présentaient des écarts d’AF significatifs, ces écarts dépendant non seulement de la technologie de séquençage, mais aussi des outils de détection de variants et des modes d’appel utilisés.

Impact sur la prédiction du risque de cancer du sein

En simulant l’évaluation des risques à 10 ans et à vie dans différentes situations (y compris l’âge et les facteurs de risque), l’étude a montré que les loci de variants avec des AF significativement divergents entraînaient de petits écarts de 1% à 2% dans la prédiction du risque de cancer du sein. Bien que ces écarts ne soient pas critiques dans l’application pratique, ils sont importants à considérer lors de la discussion de la précision de la conception de nouveaux PRS.

Solutions d’amélioration

En appliquant des sites de variants alternatifs et en considérant des allèles proxy, l’étude a montré qu’il était possible d’améliorer la précision de détection des AF pour certains loci de variants. Par exemple, pour les loci rs73754909 et rs79461387 qui présentaient fréquemment des erreurs, les allèles alternatifs correspondaient mieux aux AF attendus.

Résumé et perspectives

Cette étude, en évaluant systématiquement les limitations techniques du NGS dans l’analyse génotypique du PRS, a mis en évidence les insuffisances des méthodes existantes et proposé des solutions d’amélioration. En particulier, dans les nouvelles prédictions du risque de cancer du sein, la reproduction précise des fréquences alléliques des variants est cruciale pour optimiser la conception du PRS. Cette recherche a non seulement une valeur significative dans le diagnostic du cancer du sein, mais fournit également une orientation technique pour les scores de risque d’autres maladies liées aux gènes.

Signification de l’étude

Avec l’application généralisée de la technologie NGS dans les tests génétiques cliniques, l’amélioration de la précision et de la reproductibilité des tests devient cruciale. Cette étude révèle certains défis techniques et fournit des orientations pour l’amélioration, ce qui est utile non seulement pour la prédiction du risque individuel, mais aussi pour la conception et l’application de nouveaux PRS à l’avenir.