ACImpute : Une approche de lissage basée sur la contrainte pour l'imputation des données de séquençage d'ARN unicellulaire

Le séquençage de l’ARN monocellulaire (single-cell RNA sequencing, scRNA-seq) a récemment été largement utilisé dans les recherches biologiques et médicales, permettant de révéler les informations transcriptomiques des cellules individuelles, aidant ainsi les scientifiques à mieux comprendre l’hétérogénéité et la complexité cellulaires. Cependant, les données de scRNA-seq présentent un problème commun, à savoir les “événements de dropout” (dropout events). Ces événements entraînent l’enregistrement de la valeur d’expression de nombreux gènes dans une cellule individuelle comme étant zéro, et ces valeurs zéro peuvent être divisées en deux catégories : les “zéros biologiques” (biological zeros), indiquant que le gène n’est vraiment pas exprimé dans cette cellule, et les “zéros techniques” (technical zeros), résultant des limitations de la technologie de séquençage qui empêchent la détection de l’expression génique. Cette rareté des données affecte gravement la précision et l’efficacité des analyses ultérieures, telles que le clustering cellulaire et l’inférence de trajectoire.

Pour résoudre ce problème, les chercheurs ont développé diverses méthodes d’imputation (imputation methods), incluant l’imputation basée sur des modèles, le lissage des données et la décomposition matricielle. Cependant, les méthodes existantes présentent souvent un problème de sur-lissage (oversmoothing) lors du traitement de données à grande échelle, ce qui entraîne la suppression de l’hétérogénéité entre les cellules et affecte ainsi la précision des résultats d’analyse. Par conséquent, le développement d’une méthode d’imputation capable de restaurer efficacement l’expression génique tout en préservant l’hétérogénéité intercellulaire est devenu une direction de recherche importante.

Source de l’article

Cet article a été co-écrit par Wei Zhang, Tiantian Liu, Han Zhang et Yuanyuan Li de l’École de mathématiques et de physique de l’Institut de technologie de Wuhan, avec Yuanyuan Li comme auteur correspondant. L’article a été publié en 2025 dans la revue Bioinformatics, sous le titre “ACImpute: A Constraint-Enhancing Smooth-Based Approach for Imputing Single-Cell RNA Sequencing Data”. Le code de l’article a été rendu open source sur GitHub pour que les chercheurs puissent l’utiliser et l’améliorer.

Processus de recherche et résultats

1. Prétraitement des données

La première étape de la recherche consistait à prétraiter les données brutes de scRNA-seq. Étant donné que différentes cellules peuvent être affectées par des facteurs techniques lors du séquençage, tels que les variations dans les procédures expérimentales et l’efficacité de capture, les données doivent être normalisées. La matrice normalisée est ensuite filtrée pour sélectionner les gènes à haute variabilité en calculant le coefficient de variation (coefficient of variation), afin d’améliorer la précision du clustering ultérieur.

Résultat : La matrice de données normalisée et la matrice de gènes à haute variabilité ont jeté les bases pour l’analyse d’imputation ultérieure.

2. Calcul de la matrice de transition de Markov

Ensuite, l’équipe de recherche a utilisé la matrice de gènes à haute variabilité pour calculer une matrice de probabilité de transition stable (Markov transition matrix). Tout d’abord, l’analyse en composantes principales (PCA) a été utilisée pour réduire la dimensionnalité des données de haute dimension, réduisant ainsi le bruit et améliorant l’efficacité du calcul. Ensuite, une matrice d’affinité (affinity matrix) entre les cellules a été calculée en utilisant une stratégie de K-plus proches voisins (KNN), et la matrice de transition de Markov a été obtenue après symétrisation et normalisation.

Résultat : La matrice de probabilité de transition stable a fourni des informations sur les probabilités de transition entre les cellules pour l’imputation ultérieure.

3. Calcul de l’exposant de puissance

Pour optimiser davantage l’effet d’imputation, l’équipe de recherche a conçu une matrice d’exposant de puissance (power exponent matrix) basée sur la relation négative entre le niveau d’expression génique et le taux de dropout. Concrètement, plus le niveau d’expression génique est faible, plus le taux de dropout est élevé, donc la probabilité de transition des gènes à faible expression devrait être plus fortement contrainte lors de l’imputation. Par normalisation, la plage de la matrice d’exposant de puissance a été limitée entre 1 et 3.

Résultat : La matrice d’exposant de puissance a efficacement contraint les probabilités de transition des gènes à différents niveaux d’expression, évitant ainsi le sur-lissage.

4. Imputation des données monocellulaires

Enfin, l’équipe de recherche a combiné la matrice d’exposant de puissance et la matrice de probabilité de transition pour calculer la matrice d’imputation. La matrice d’imputation a été traitée par normalisation inverse, remplaçant les valeurs zéro dans la matrice originale pour obtenir le résultat final d’imputation.

Résultat : La matrice de données imputée a efficacement restauré l’expression génique tout en préservant l’hétérogénéité intercellulaire.

Validation expérimentale

1. Analyse de corrélation

Pour vérifier l’efficacité de l’imputation par ACImpute, l’équipe de recherche a utilisé deux ensembles de données pour l’analyse de corrélation. Le premier ensemble de données a utilisé des gènes ERCC de concentration connue comme référence, tandis que le second a utilisé des données de séquençage d’ARN en masse comme référence. Les résultats ont montré qu’ACImpute surpassait significativement d’autres méthodes d’imputation dans la restauration de l’expression génique.

Résultat : ACImpute a excellé dans l’analyse de corrélation, permettant de restaurer efficacement l’expression génique.

2. Analyse de clustering

L’équipe de recherche a ensuite effectué une analyse de clustering sur six ensembles de données réels, en utilisant trois indicateurs d’évaluation de clustering : l’indice de Rand ajusté (ARI), l’information mutuelle normalisée (NMI) et la pureté (purity). Les résultats ont montré que la performance de clustering d’ACImpute était supérieure à celle des autres méthodes d’imputation sur la plupart des ensembles de données.

Résultat : ACImpute a excellé dans l’analyse de clustering, permettant de séparer efficacement les différents types de cellules.

3. Inférence de trajectoire

Enfin, l’équipe de recherche a utilisé l’algorithme Monocle2 pour analyser l’inférence de trajectoire sur les données imputées. Les résultats ont montré qu’ACImpute surpassait les autres méthodes dans l’inférence de trajectoire, reflétant mieux les changements dynamiques au cours de la différenciation cellulaire.

Résultat : ACImpute a excellé dans l’inférence de trajectoire, permettant de révéler efficacement les trajectoires de différenciation cellulaire.

Conclusion et signification

Cet article propose une méthode d’imputation basée sur une contrainte de lissage, ACImpute, qui empêche efficacement le problème de sur-lissage en contraignant les probabilités de transition des gènes à différents niveaux d’expression. Les résultats expérimentaux montrent qu’ACImpute peut restaurer efficacement l’expression génique, préserver l’hétérogénéité intercellulaire et exceller dans les analyses de clustering et d’inférence de trajectoire. La proposition d’ACImpute offre une nouvelle perspective pour l’imputation des données de scRNA-seq, avec une valeur scientifique et un potentiel d’application importants.

Points forts de la recherche

  1. Innovation : ACImpute empêche efficacement le problème de sur-lissage en contraignant les probabilités de transition des gènes à différents niveaux d’expression.
  2. Efficacité : ACImpute présente un avantage temporel dans le traitement des données à grande échelle, permettant une analyse d’imputation rapide.
  3. Large applicabilité : Les performances exceptionnelles d’ACImpute dans les analyses de clustering et d’inférence de trajectoire lui confèrent un potentiel d’application étendu dans les recherches biologiques et médicales.

Perspectives futures

Bien qu’ACImpute ait fait des progrès significatifs en matière d’imputation, il reste des améliorations possibles. Par exemple, le choix du paramètre n lors du calcul de la matrice d’exposant de puissance peut affecter la précision des résultats d’imputation. À l’avenir, l’équipe de recherche prévoit d’optimiser davantage l’algorithme pour mieux s’adapter aux besoins des différents ensembles de données et distinguer les zéros biologiques des zéros techniques.