GCLink : un cadre de prédiction de liens par contraste graphique pour l'inférence de réseaux de régulation génique

Contexte de la recherche

Les réseaux de régulation génique (Gene Regulatory Networks, GRNs) sont des outils essentiels pour comprendre les processus biologiques complexes à l’intérieur des cellules. Ils révèlent les interactions entre les facteurs de transcription (Transcription Factors, TFs) et les gènes cibles, contrôlant ainsi le processus de transcription des gènes et régulant le comportement cellulaire. Avec le développement des technologies de séquençage d’ARN unicellulaire (single-cell RNA-sequencing, scRNA-seq), les chercheurs peuvent désormais obtenir des données d’expression génique à une résolution unicellulaire, offrant ainsi une opportunité sans précédent pour l’inférence des GRNs. Cependant, la nature sporadique et la variabilité élevée des données scRNA-seq posent d’importants défis pour l’inférence des GRNs.

Les méthodes existantes pour l’inférence des GRNs se divisent en deux catégories : les méthodes non supervisées basées sur la corrélation ou l’information mutuelle, et les méthodes supervisées basées sur l’apprentissage automatique. Bien que ces méthodes aient montré des performances remarquables dans certains cas, elles reposent souvent sur la corrélation par paire de gènes, négligeant ainsi les informations globales, ce qui limite leur capacité de généralisation. De plus, de nombreuses méthodes peinent à gérer le bruit des données et la sparsité, en particulier lorsque les interactions régulatrices connues sont limitées.

Pour relever ces défis, les chercheurs ont proposé des méthodes basées sur les réseaux de neurones graphiques (Graph Neural Networks, GNNS). Les GNNS peuvent traiter des données structurées en graphes et ont montré des performances exceptionnelles dans des tâches telles que la classification de nœuds, la classification de graphes et la prédiction de liens. Cependant, les méthodes GNN existantes rencontrent toujours des difficultés lorsqu’elles traitent des interactions régulatrices connues limitées ou des réseaux contenant du bruit.

Équipe de recherche et informations de publication

Cette étude a été réalisée par Weiming Yu, Zerun Lin et Miaofang Lan de l’Université de Shenzhen, ainsi que par Le Ou-Yang de l’Université de Moscou-Pékin à Shenzhen. L’article a été publié le 17 février 2025 dans la revue Bioinformatics, sous le titre “GCLink: A Graph Contrastive Link Prediction Framework for Gene Regulatory Network Inference”. Cette recherche a été soutenue par plusieurs projets, notamment la Fondation nationale des sciences naturelles de Chine, la Fondation de recherche fondamentale et appliquée de la province du Guangdong, et le Programme de technologie de Shenzhen.

Cadre et méthodes de recherche

Définition du problème

Un GRN peut être représenté par un graphe ( G = (V, E) ), où ( V ) représente l’ensemble des nœuds et ( E ) l’ensemble des arêtes. Les données scRNA-seq peuvent être représentées par une matrice d’expression génique ( X \in R^{m \times n} ), où ( m ) représente le nombre de gènes et ( n ) le nombre de cellules. Les interactions régulatrices connues peuvent être représentées par une matrice d’adjacence ( A \in R^{m \times m} ), où ( A{ij} = 1 ) indique qu’il existe une relation régulatrice entre les gènes ( i ) et ( j ), sinon ( A{ij} = 0 ). L’objectif principal de cette étude est d’inférer des relations régulatrices potentielles basées sur les interactions régulatrices connues, ce qui peut être considéré comme un problème de prédiction de liens.

Augmentation de graphe

Pour améliorer la capacité du modèle à gérer des réseaux clairsemés, les chercheurs ont adopté une stratégie d’augmentation de graphe. Concrètement, ils ont conservé le graphe original et supprimé aléatoirement une partie des arêtes pour générer un graphe perturbé. De cette manière, le modèle peut s’adapter à des scénarios extrêmement clairsemés tout en conservant les informations connues.

Apprentissage de la représentation des gènes

Les chercheurs ont utilisé un réseau d’attention sur graphe (Graph Attention Network, GAT) pour extraire des représentations de faible dimension des gènes à partir des données d’expression génique. Le GAT attribue des poids à chaque gène via un mécanisme d’auto-attention, permettant ainsi d’agréger les informations des gènes voisins. Grâce au mécanisme multi-têtes d’attention, le GAT peut apprendre de manière stable les représentations des gènes.

Apprentissage contrastif sur graphe

Après avoir obtenu les représentations de faible dimension des gènes, les chercheurs ont optimisé ces représentations en utilisant l’apprentissage contrastif sur graphe. Ils ont utilisé une perte de contraste inter-vues pour maximiser la cohérence des représentations d’un même gène dans différentes vues et distinguer les autres gènes. Cette méthode permet d’apprendre des représentations de gènes de haute qualité, même lorsque les interactions régulatrices connues sont limitées.

Prédiction de liens

Pour inférer les relations régulatrices potentielles entre les gènes, les chercheurs ont introduit les représentations de faible dimension des gènes dans un perceptron multicouche (MLP) et ont calculé les scores de liens entre les gènes via un produit scalaire. Enfin, ces scores sont mappés à des valeurs de probabilité entre 0 et 1 à l’aide de la fonction sigmoïde, indiquant la probabilité d’une relation régulatrice entre les gènes.

Résultats expérimentaux

Performances sur les ensembles de données de référence

Les chercheurs ont évalué les performances de GCLink sur plusieurs ensembles de données scRNA-seq et les ont comparées à six méthodes de référence. Les résultats expérimentaux montrent que GCLink surpasse les autres méthodes en termes de scores AUROC (Area Under the Receiver Operating Characteristic Curve) et AUPRC (Area Under the Precision-Recall Curve) sur la plupart des ensembles de données. En particulier, GCLink a montré des performances exceptionnelles sur les réseaux spécifiques au type cellulaire ChIP-seq.

Études en cas de faible échantillonnage

Pour valider la capacité de généralisation de GCLink dans des situations où les interactions régulatrices connues sont limitées, les chercheurs ont mené des expériences en cas de faible échantillonnage. Ils ont choisi une lignée cellulaire avec un grand nombre d’interactions régulatrices connues comme source pour l’entraînement préalable, puis ont effectué un ajustement fin sur la lignée cellulaire cible. Les résultats expérimentaux montrent que GCLink excelle dans ces scénarios, démontrant une forte capacité de transfert.

Analyse des hyperparamètres

Les chercheurs ont également analysé l’impact de différents hyperparamètres sur les performances du modèle, en particulier la probabilité de suppression aléatoire des arêtes. Les résultats expérimentaux montrent que la meilleure performance est obtenue lorsque la probabilité de suppression des arêtes est fixée à 0,2 sur la plupart des ensembles de données.

Études de cas

Les chercheurs ont appliqué GCLink à un ensemble de données de cellules souches embryonnaires humaines (hESC) et ont réussi à inférer de nouvelles interactions régulatrices. Ces résultats montrent que GCLink peut non seulement inférer avec précision les relations régulatrices connues, mais aussi prédire des interactions régulatrices potentielles.

Discussion et signification

En combinant l’attention sur graphe et l’apprentissage contrastif, GCLink améliore significativement la précision de l’inférence des GRNs, en particulier lorsque les interactions régulatrices connues sont limitées. Cette méthode peut non seulement gérer la sparsité et le bruit des données scRNA-seq, mais aussi répondre efficacement à la variabilité élevée des données. De plus, les performances exceptionnelles de GCLink dans des scénarios de faible échantillonnage montrent qu’il possède une forte capacité de transfert et de généralisation.

Cependant, GCLink dépend toujours de réseaux de haute qualité d’interactions régulatrices connues, et ses performances peuvent diminuer en présence de bruit dans le réseau. Les recherches futures pourraient explorer comment améliorer la capacité de transfert du modèle dans des scénarios entièrement non supervisés et améliorer les méthodes d’augmentation de graphe pour renforcer la stabilité du modèle.

Conclusion

GCLink propose une nouvelle solution pour l’inférence des GRNs, en particulier lors du traitement de données d’expression génique complexes et sporadiques à une résolution unicellulaire. Cette méthode améliore non seulement significativement la précision de l’inférence, mais maintient également une forte capacité de généralisation lorsque les interactions régulatrices connues sont limitées, offrant ainsi un outil puissant pour la recherche biologique.