Apprentissage multimodal pour la cartographie de la dynamique génotype-phénotype

Apprentissage multimodal pour cartographier la dynamique génotype-phénotype

Contexte

La relation complexe entre le génotype et le phénotype a toujours été une question centrale en biologie. Le génotype fait référence à l’information génétique d’un organisme, tandis que le phénotype est la manifestation de cette information génétique dans un environnement spécifique. Bien que Wilhelm Johannsen ait introduit ces deux termes dès 1909 et tenté de quantifier leur relation, plus d’un siècle plus tard, nous ne parvenons toujours pas à décrire précisément comment le génotype façonne le phénotype à travers des schémas complexes d’expression génique. Ces dernières années, le développement de techniques comme le séquençage de l’ARN monocellulaire (single-cell RNA sequencing, scRNA-seq) a permis d’observer la dynamique complexe de l’expression génique à l’échelle cellulaire. Cependant, ces technologies ne parviennent toujours pas à cartographier de manière exhaustive comment les combinaisons de génotypes conduisent à l’émergence de phénotypes.

Les méthodes actuelles, comme la génétique directe (forward genetics) et la génétique inverse (reverse genetics), peuvent théoriquement analyser la relation entre le génotype et le phénotype, mais peinent dans la pratique en raison de l’ampleur et de la complexité des études. En particulier, dans les cellules humaines, des milliers de combinaisons de gènes créent un paysage phénotypique extrêmement diversifié. De plus, bien que le scRNA-seq puisse révéler des milliers de changements d’expression génique entre les cellules, il rend également plus complexe l’extraction de conclusions biologiques significatives à partir de ces données de haute dimension. Récemment, les avancées en apprentissage automatique, notamment l’introduction des architectures Transformer supervisées issues du traitement du langage naturel (natural language processing, NLP), ont offert de nouvelles perspectives pour l’analyse des ensembles de données biologiques complexes.

Source de l’article

Cet article, intitulé « Multimodal Learning for Mapping Genotype–Phenotype Dynamics », a été rédigé par Farhan Khodaee, Rohola Zandie et Elazer R. Edelman. Ils sont respectivement affiliés à l’Institute for Medical Engineering and Science du Massachusetts Institute of Technology et au Department of Medicine (cardiovascular medicine) du Brigham and Women’s Hospital. L’article a été accepté le 1er mai 2024 et publié en ligne le 20 décembre 2024 dans la revue Nature Computational Science.

Déroulement de la recherche

1. Objectifs et conception de la méthode

Cette étude vise à développer un cadre computationnel permettant d’analyser simultanément la relation dynamique entre l’expression génique et la manifestation phénotypique en intégrant des données génotypiques et phénotypiques de haute dimension. Pour ce faire, les auteurs ont proposé un modèle de base multimodal – Polygene – qui utilise des modèles de langage auto-supervisés (self-supervised language models) pour cartographier simultanément la relation entre le génotype et le phénotype. L’innovation clé de Polygene réside dans la combinaison des données de séquençage de l’ARN monocellulaire avec des informations phénotypiques (comme le sexe, l’âge, le type de tissu et le type cellulaire), améliorant ainsi la compréhension du contexte biologique de l’expression génique.

2. Prétraitement des données et entrée du modèle

L’étude a utilisé l’ensemble de données de transcriptomique monocellulaire Tabula Sapiens, qui contient près de 500 000 cellules humaines provenant de 24 organes. Les valeurs d’expression génique de chaque cellule ont été normalisées et regroupées en “bins” pour l’analyse ultérieure. L’entrée du modèle comprend les valeurs d’expression génique et les informations phénotypiques associées, qui sont encodées en représentations vectorielles et introduites dans le réseau.

3. Architecture et entraînement du modèle

Le modèle Polygene est basé sur l’architecture Transformer et utilise une méthode d’apprentissage auto-supervisé pour le pré-entraînement. Concrètement, le modèle masque aléatoirement une partie des valeurs d’expression génique, puis prédit les valeurs masquées à partir des gènes restants. Cette méthode est similaire à la modélisation de langage masquée (masked language modeling) en traitement du langage naturel. Pendant l’entraînement, les phénotypes et les génotypes sont masqués avec des probabilités de 50 % et 15 %, respectivement, pour assurer la robustesse du modèle.

4. Analyse et validation des résultats

Pour évaluer les performances du modèle, les auteurs ont réalisé une analyse multi-niveaux des sorties de Polygene. Tout d’abord, ils ont utilisé les embeddings de gènes et de phénotypes générés par le modèle pour classer les types cellulaires, les tissus d’origine, l’âge et le sexe. Les résultats montrent que Polygene surpasse d’autres méthodes de pointe, comme scGPT, dans la distinction des types et états cellulaires étroitement liés. De plus, grâce à une analyse de similarité cosinus, les auteurs ont révélé la fonction dynamique des gènes dans différents contextes phénotypiques. Par exemple, le gène H4C3 a montré une similarité significative à travers tous les phénotypes, indiquant son rôle fondamental dans la prolifération cellulaire et la progression du cycle cellulaire.

5. Reconstruction des réseaux géniques et analyse de la multifonctionnalité

Une autre contribution majeure de cette recherche est la mise en lumière de la structure dynamique des réseaux géniques dans différents contextes phénotypiques. En analysant les réseaux géniques des cellules endothéliales (endothelial cells, ECs), les auteurs ont constaté que le vieillissement modifie la distribution de la loi de puissance des réseaux géniques, suggérant une restructuration du réseau. Par ailleurs, en examinant les embeddings du facteur von Willebrand (von Willebrand factor, VWF), ils ont découvert que ce gène présente deux groupes fonctionnellement distincts dans les cellules endothéliales, liés respectivement à la coagulation sanguine et à la réponse au stress oxydatif.

Principaux résultats et relations logiques

  1. Génération d’embeddings de gènes et de phénotypes : Le modèle Polygene a généré avec succès des embeddings de haute dimension pour les gènes et les phénotypes, capables de capturer avec précision les différences entre les types cellulaires, les tissus d’origine, l’âge et le sexe. Par exemple, le modèle a excellemment distingué les tissus du ventricule et de l’atrium cardiaques, ce qui correspond à leur relation fonctionnelle et anatomique étroite.

  2. Multifonctionnalité des gènes : En analysant les embeddings du gène VWF, l’étude a révélé la multifonctionnalité de ce gène dans les cellules endothéliales. Cela élargit notre compréhension des fonctions géniques et ouvre de nouvelles perspectives pour la découverte de médicaments et la thérapie cellulaire.

  3. Reconstruction des réseaux géniques : L’étude montre que le vieillissement modifie la structure des réseaux géniques dans les cellules endothéliales, en particulier le rôle des nœuds faiblement connectés. Cette découverte fournit de nouveaux gènes candidats pour l’étude du vieillissement vasculaire, tels que KCNH8 et DNJA4.

Conclusion et valeur

Cette étude a développé un modèle de base multimodal, Polygene, en intégrant des données génotypiques et phénotypiques de haute dimension, révélant ainsi la relation dynamique complexe entre le génotype et le phénotype. La valeur scientifique de cette recherche réside dans la proposition d’un nouveau cadre computationnel capable d’analyser simultanément l’expression génique et les informations phénotypiques, améliorant ainsi la compréhension du contexte biologique de l’expression génique. Sur le plan applicatif, ce modèle a un potentiel significatif dans la découverte de biomarqueurs inter-tissus, l’analyse de la multifonctionnalité des gènes et l’accélération de l’identification de cibles thérapeutiques.

Points forts et innovations

  1. Méthode d’apprentissage multimodal : Cette étude est la première à introduire des modèles de langage auto-supervisés dans la recherche sur la relation génotype-phénotype, inaugurant un nouveau paradigme appelé « génétique intégrée » (integrated genetics).

  2. Découverte de gènes multifonctionnels : En analysant les gènes VWF et CD55, l’étude a révélé la multifonctionnalité des gènes dans différents contextes cellulaires et phénotypiques, ouvrant de nouvelles voies pour la médecine personnalisée.

  3. Reconstruction des réseaux géniques : Pour la première fois, l’étude a rapporté la structure dépendante du contexte des réseaux géniques dans les données d’expression d’ARN, en particulier la restructuration des réseaux géniques dans le contexte du vieillissement, offrant de nouvelles perspectives sur le vieillissement vasculaire.

Autres informations utiles

  1. Publication des données et du code : L’équipe de recherche a rendu publics les scripts d’entraînement du modèle Polygene, le tokenizer transcriptomique ainsi que le code de prétraitement des données et d’inférence sur GitHub et Zenodo, permettant à d’autres chercheurs de reproduire et d’étendre les résultats.

  2. Directions futures : Les auteurs soulignent que les travaux futurs pourraient optimiser les techniques de traitement des données pour permettre au modèle de gérer plus efficacement des profils transcriptomiques diversifiés, tout en élargissant ses applications, notamment dans la médecine personnalisée et la découverte de médicaments.

À travers cette recherche, nous avons non seulement approfondi notre compréhension de la relation complexe entre l’expression génique et la manifestation phénotypique, mais nous avons également posé les bases solides des futures études en génomique.