APNet : Un modèle d'apprentissage profond parcimonieux explicable pour découvrir les facteurs actifs différentiels de la COVID-19 sévère
Contexte académique
La pandémie de COVID-19 a eu un impact considérable sur les systèmes de santé publique mondiaux. Bien que la situation se soit améliorée, les mécanismes immunopathologiques complexes de la maladie, les séquelles à long terme (comme le “COVID long”) et les menaces similaires potentielles continuent de stimuler la recherche. En particulier, les patients atteints de COVID-19 sévère souffrent souvent de symptômes graves tels que la “tempête de cytokines”, le syndrome de détresse respiratoire aiguë (SDRA) et la défaillance multiviscérale, nécessitant des modèles prédictifs plus précis et des biomarqueurs pour guider les décisions cliniques.
Les modèles traditionnels d’apprentissage automatique (ML) et d’apprentissage profond (DL) ont montré des performances remarquables dans l’analyse des données omiques à haut débit, mais ils manquent souvent d’interprétabilité biologique, rendant difficile la révélation des dynamiques protéiques non linéaires (comme les modifications post-traductionnelles) et des mécanismes complexes de régulation des voies de signalisation. Pour résoudre ce problème, les auteurs ont développé APNet (Activity PASNet), un modèle d’apprentissage profond épars basé sur l’analyse de l’activité différentielle et les informations biologiques, visant à découvrir les facteurs de gravité de la COVID-19 par des prédictions interprétables.
Source de l’article
Cet article est co-écrit par George I. Gavriilidis, Vasileios Vasileiou, Stella Dimitsaki et d’autres auteurs, provenant d’institutions telles que l’Institut de biosciences appliquées du Centre de recherche et de technologie Hellas, le Département de biologie moléculaire et de génétique de l’Université Démocrite de Thrace, et l’Institut de recherche sur la santé maternelle et infantile et la médecine de précision de l’Université nationale et capodistrienne d’Athènes. L’article a été publié le 8 février 2025 dans la revue Bioinformatics, sous le titre “APNet, an explainable sparse deep learning model to discover differentially active drivers of severe COVID-19”.
Processus de recherche
1. Aperçu du cadre APNet
APNet est un cadre computationnel modulaire visant à classer les patients de manière interprétable et à générer des hypothèses sur les mécanismes biologiques grâce à un modèle d’apprentissage profond basé sur les informations biologiques. Ses principales tâches incluent : - Clustering supervisé : Distinguer les cas de COVID-19 sévères et non sévères. - Génération de mécanismes biologiques : Révéler les réseaux de régulation et les voies de signalisation potentiels en construisant un graphe biparti protéine-voie.
Les composants clés d’APNet incluent : - Outils NetBID2 et scMINER : Génèrent des réseaux de régulation de protéines/gènes par ingénierie inverse basée sur l’algorithme SJARACNe, transformant les matrices d’expression en matrices d’activité. - Modèle PASNet : Un réseau de neurones épars basé sur les informations biologiques, utilisé pour le clustering supervisé et l’analyse préliminaire de l’interprétabilité biologique. - Valeurs SHAP : Utilisées pour améliorer l’interprétabilité du modèle et identifier les molécules les plus prédictives.
2. Traitement des données et transformation en activité
L’étude a utilisé trois ensembles de données de protéomique plasmatique de COVID-19 (MGH, Mayo, Stanford) et deux ensembles de données de séquençage d’ARN unicellulaire (scRNA-seq). Grâce aux outils NetBID2 et scMINER, les matrices d’expression ont été transformées en matrices d’activité, capturant les relations de régulation des protéines/gènes. La transformation en activité a significativement amélioré le rapport signal/bruit des données et réduit les effets de lot.
3. Analyse de l’activité différentielle et enrichissement des voies
Après la transformation en activité, l’étude a calculé les protéines/gènes différentiellement actifs (DAPs/DAGs) entre les cas sévères et non sévères, et a effectué une analyse d’enrichissement des voies via la base de connaissances Enrichr (KG). Les résultats ont montré que l’analyse d’activité pouvait identifier davantage de voies de signalisation liées à la COVID-19, telles que les réponses inflammatoires, l’apoptose et les infections virales.
4. Entraînement et validation du modèle
Le modèle APNet a été entraîné sur l’ensemble de données MGH, puis validé et testé sur les ensembles de données Mayo et Stanford. Le modèle a montré des performances exceptionnelles, avec des scores AUC (aire sous la courbe) et F1 significativement supérieurs à ceux des autres modèles de référence (comme la forêt aléatoire et le modèle PASNet original).
5. Génération d’hypothèses sur les mécanismes biologiques
En construisant un graphe biparti protéine-voie, APNet a révélé des voies de signalisation et des réseaux de régulation clés associés à la gravité de la COVID-19. Par exemple, ACAA1 (acyl-CoA acyltransférase 1) a été identifié comme un facteur prédictif important, et ses relations de régulation avec des protéines comme IL-6 et CKAP4 ont joué un rôle significatif dans les mécanismes immunopathologiques de la COVID-19.
Résultats principaux
- Alignement des distributions de données et réduction des effets de lot : La transformation en activité a significativement amélioré l’alignement des distributions de données entre les différents ensembles de données et réduit les effets de lot.
- Identification des facteurs d’activité différentielle : L’analyse d’activité a identifié 333 protéines différentiellement actives communes (DAPs), bien plus que les résultats de l’analyse d’expression traditionnelle.
- Performance prédictive supérieure : APNet a montré des performances exceptionnelles dans la prédiction des cas de COVID-19 sévères, avec des scores AUC et F1 significativement supérieurs à ceux des autres modèles de référence.
- Génération d’hypothèses sur les mécanismes biologiques : APNet a révélé plusieurs voies de signalisation et réseaux de régulation associés à la gravité de la COVID-19, tels que les réponses inflammatoires, l’apoptose et les infections virales.
Conclusion et signification
APNet, en tant que cadre d’apprentissage profond interprétable, permet non seulement de prédire efficacement les cas de COVID-19 sévères, mais aussi de révéler les voies de signalisation et les réseaux de régulation potentiels grâce à la génération d’hypothèses biologiques. Son innovation réside dans la combinaison de l’analyse d’activité et d’un modèle d’apprentissage profond basé sur les informations biologiques, améliorant significativement l’interprétabilité biologique et les performances prédictives du modèle. À l’avenir, APNet pourrait être appliqué à l’analyse de données multi-omiques d’autres maladies complexes (comme le cancer et les maladies neurodégénératives), offrant de nouveaux outils et perspectives pour la médecine de précision.
Points forts de l’étude
- Méthode innovante : APNet combine pour la première fois l’analyse d’activité avec un modèle d’apprentissage profond basé sur les informations biologiques, résolvant les lacunes en matière d’interprétabilité biologique des modèles traditionnels.
- Performance prédictive élevée : APNet a montré des performances exceptionnelles sur plusieurs ensembles de données de COVID-19, surpassant significativement les autres modèles de référence.
- Révélation des mécanismes biologiques : En construisant un graphe biparti protéine-voie, APNet a révélé des voies de signalisation et des réseaux de régulation clés associés à la gravité de la COVID-19, fournissant des informations importantes pour les décisions cliniques.
Autres informations utiles
Les scripts R et Python d’APNet sont en open source et disponibles sur GitHub (https://github.com/biodataanalysisgroup/apnet), offrant un outil pratique et une référence pour d’autres chercheurs. De plus, les ensembles de données utilisés dans l’étude sont également accessibles sur la plateforme Zenodo, facilitant la reproduction et les recherches ultérieures.
Grâce à APNet, les chercheurs peuvent mieux comprendre les mécanismes immunopathologiques de la COVID-19 et fournir de nouvelles idées et méthodes pour la prévention et le contrôle de futures pandémies similaires.