Évaluation des grands modèles de langage pour la découverte de la fonction des ensembles de gènes

Évaluation des modèles linguistiques pour découvrir les fonctions des ensembles géniques : les performances remarquables de GPT-4

Contexte scientifique

Dans le domaine de la génomique fonctionnelle, l’analyse d’enrichissement des ensembles géniques (gene set enrichment analysis) est une méthode essentielle pour comprendre les fonctions géniques et les processus biologiques associés. Cependant, les analyses actuelles reposent principalement sur des bases de données de fonctions géniques issues de la littérature, telles que Gene Ontology (GO), qui présentent des limites : les données sont incomplètes et leur mise à jour est lente. Cela conduit à l’incapacité d’interpréter efficacement de nombreux ensembles géniques, qui sont pourtant sources potentielles de nouvelles idées biologiques importantes.

Dans ce contexte, la montée des intelligences artificielles génératives (generative artificial intelligence), et plus spécifiquement des « grands modèles linguistiques » (Large Language Models, LLMs) comme GPT-4, offre de nouvelles perspectives pour la génomique fonctionnelle. Ces modèles, capables de capturer des informations sémantiques profondes à partir de vastes corpus de textes, peuvent être utilisés pour identifier et résumer les fonctions partagées d’un ensemble génique. Toutefois, la fiabilité scientifique et la performance de ces modèles appliqués à des problèmes biologiques complexes restent incertaines. Cette étude vise à répondre précisément à cette question.

Origine de l’étude

L’étude titrée “Evaluation of large language models for discovery of gene set function” a été menée par Mengzhou Hu, Sahar Alkhairy, Ingoo Lee, Rudolf T. Pillich et al., affiliés à l’University of California San Diego (UCSD). Cette recherche a été publiée dans la revue Nature Methods, volume 22, en janvier 2025. L’objectif était d’évaluer les performances de cinq grands modèles linguistiques dans l’interprétation des ensembles géniques, en se concentrant sur leur capacité à retrouver les fonctions des bases de référence ainsi que sur la fiabilité de leur auto-évaluation de confiance.


Méthodologie de l’étude

a) Design expérimental et workflow

Une pipeline entièrement automatisée pour l’analyse fonctionnelle des ensembles géniques, basée sur les LLMs, a été conçue. Cette pipeline prend comme entrée une liste de gènes ou de protéines fournie par l’utilisateur et génère les résultats suivants :

  1. Nom descriptif abrégé (Proposed Name) : Résume la principale fonction biologique représentée par l’ensemble génique.
  2. Analyse justificative (Analysis Essay) : Explique la raison derrière le choix du nom, en détaillant les fonctions des gènes ou processus biologiques impliqués.
  3. Score de confiance (Confidence Score) : Traduit le niveau de confiance du modèle envers les résultats générés, sur une échelle de 0 à 1.

Cinq modèles linguistiques ont été évalués : GPT-4 et GPT-3.5 (OpenAI), Gemini Pro (Google), Mixtral Instruct (Mistralai) et Llama2 70b (Meta). Les recherches ont été guidées par des instructions normalisées (Prompt) structurées en sept sections, notamment des descriptions de tâches, des exemples et des directives pour la génération de scores de confiance.

Deux types de jeux de données ont été constitués pour évaluer le système : 1. Ensembles géniques issus des bases de données (Literature-curated gene sets) : 1 000 ensembles ont été choisis aléatoirement dans les processus biologiques de Gene Ontology (GO-BP). 2. Ensembles géniques dérivés des données omiques (Omics-derived gene sets) : 300 ensembles ont été extraits des données de transcriptomique et de protéomique.

b) Méthodes d’évaluation

  1. Mesure de similarité sémantique (Semantic Similarity Measure) :
    La similarité entre les noms générés par les modèles et les termes de GO a été quantifiée à l’aide de SapBERT, un modèle spécialisé dans l’analyse sémantique des termes biomédicaux (scores entre 0 et 1, où 1 signifie identique).

  2. Score de confiance et détection des ensembles contaminés :
    Pour évaluer la capacité des modèles à détecter des ensembles incohérents, des ensembles géniques « contaminés » (50 % gènes réels, 50 % aléatoires) ainsi que des ensembles complètement aléatoires ont été testés.

  3. Exploration des ensembles issus des données omiques :
    Les performances de GPT-4 ont été comparées aux méthodes classiques, telles que l’outil d’enrichissement fonctionnel g:Profiler, pour nommer et analyser les ensembles géniques omiques.


Résultats principaux

a) Validation des ensembles géniques de référence

Dans les tests utilisant les ensembles de GO, les résultats montrent : - Performance exceptionnelle de GPT-4 : GPT-4 a généré des noms très similaires aux termes de GO dans 73 % des cas. De plus, ses scores de confiance élevés étaient fortement corrélés à la précision des résultats (coefficient de corrélation r = 0,92). - Comparaison avec d’autres modèles LLMs : GPT-4, Gemini Pro, GPT-3.5 et Mixtral Instruct ont montré des performances similaires (similarité sémantique médiane : 0,45-0,50), tandis que Llama2 a obtenu des résultats nettement inférieurs (0,40). - Confiabilité scientifique : Une revue humaine a révélé que 88 % des textes générés par GPT-4 reposaient sur des données scientifiques vérifiables.

b) Interprétation des ensembles provenant des données omiques

Parmi les 300 ensembles géniques omiques analysés : - Capacité à nommer des fonctions précises : GPT-4 a nommé 135 ensembles avec un niveau de confiance élevé (45 %). Comparativement, g:Profiler a nommé 229 ensembles mais a produit des résultats souvent moins spécifiques ou trompeurs pour des ensembles aléatoires. - Créativité et logique : GPT-4 a généré des noms pertinents et innovants, comme pour l’ensemble Nest:2-105 où il a proposé « Régulation des complexes CRL (Cullin–Ring ubiquitine ligase) », en détaillant les données de validation sur le réseau génique.

c) Distinction des ensembles incohérents

GPT-4 se démarque par sa capacité à refuser de nommer des ensembles incohérents. Pour 87 % des ensembles complètement aléatoires, le modèle a donné un score de confiance nul et une désignation générique (« système de protéines non liées »). Cette prudence contraste fortement avec GPT-3.5 et les autres modèles.


Discussions et conclusion

d) Points forts de l’étude

  1. Capture des connaissances biologiques profondes :
    GPT-4 fait preuve de performances exceptionnelles dans la découverte fonctionnelle, l’analyse de la littérature et la logique de raisonnement, démontrant la pertinence des LLMs en génomique fonctionnelle.

  2. Nouveaux outils et méthodologies :
    Le système introduit des innovations telles que l’évaluation des scores de confiance, la conception ciblée de prompts et un module de vérification automatique des citations (Citation Module).

  3. Découverte de fonctions inédites :
    Au-delà des bases de données existantes, GPT-4 intègre des données non structurées pour révéler des fonctions potentielles non encore couvertes par GO, contribuant à l’exploration de nouvelles connaissances biologiques.

e) Impact scientifique et applicatif

Cette étude montre que les grands modèles linguistiques peuvent devenir des outils puissants pour interpréter les données omiques et découvrir de nouvelles fonctions biologiques. La méthode d’auto-évaluation des scores de confiance est particulièrement utile pour identifier les incohérences et réduire le bruit.

L’intégration du traitement du langage naturel et des sciences de la vie ouvre une opportunité unique pour résoudre les défis scientifiques actuels et élargir le champ de recherche biomédicale.