Apprentissage découplé des propriétés de pic pour une prédiction efficace et interprétable des spectres de dichroïsme circulaire électronique
Prédiction efficace et interprétable des spectres de dichroïsme circulaire électronique : Decoupled Peak Property Learning
Contexte académique
Le dichroïsme circulaire électronique (Electronic Circular Dichroism, ECD) est un outil clé pour étudier la chiralité moléculaire, en particulier dans la synthèse organique asymétrique et l’industrie pharmaceutique, où il est utilisé pour distinguer les configurations absolues des molécules chirales. Cependant, les méthodes existantes de prédiction des spectres ECD présentent deux problèmes majeurs : la rareté des données et le manque d’interprétabilité, ce qui réduit la fiabilité des résultats de prédiction. La prédiction actuelle des spectres ECD repose sur des calculs de chimie quantique longs, comprenant l’extraction de la structure moléculaire, la recherche de conformations, l’optimisation de la structure, les calculs de théorie de la fonctionnelle de la densité dépendante du temps (TD-DFT) et la pondération de Boltzmann. Cela nécessite non seulement une expertise approfondie des chimistes expérimentaux, mais consomme également d’importantes ressources de calcul et de temps. Par conséquent, comment accélérer les calculs théoriques des spectres ECD et améliorer leur précision et leur interprétabilité est devenu un problème urgent à résoudre.
Source de l’article
Cet article est coécrit par Hao Li, Da Long, Li Yuan, Yu Wang, Yonghong Tian, Xinchang Wang et Fanyang Mo, auteurs respectivement affiliés à l’École supérieure de Shenzhen de l’Université de Pékin, à l’Université de Xiamen et à l’Université de Pékin. L’article a été publié le 4 décembre 2024 dans la revue Nature Computational Science.
Processus de recherche
1. Construction du jeu de données
Description du processus
Pour résoudre le problème de la rareté des données dans la prédiction des spectres ECD, l’équipe de recherche a d’abord construit un jeu de données à grande échelle de spectres ECD, appelé CMCDS. Ce jeu de données contient 22 190 spectres ECD de molécules chirales ainsi que leurs séquences SMILES (Simplified Molecular Input Line Entry System). Les spectres ECD de ces molécules ont été calculés à l’aide du logiciel Gaussian 16, comprenant l’optimisation de la structure moléculaire (au niveau B3LYP/6-31G) et le calcul des spectres ECD (au niveau CAM-B3LYP/6-31G(d), avec nstates=20).
Objets et traitements de l’étude
Les objets de l’étude sont des molécules chirales extraites de la littérature sur la catalyse asymétrique. Les structures moléculaires ont été converties au format MDL Molfiles à l’aide du package RDKit, et les fichiers de calcul Gaussian ont été générés par lots.
Résultats expérimentaux
Le jeu de données CMCDS a été généré par des calculs théoriques à grande échelle, fournissant un support de haute qualité pour l’entraînement des modèles d’apprentissage profond.
2. Construction du modèle ECDformer
Description du processus
L’équipe de recherche a proposé un modèle d’apprentissage profond basé sur l’architecture Transformer, appelé ECDformer, pour une prédiction efficace et interprétable des spectres ECD. ECDformer décompose les spectres ECD en entités de pics et prédit séparément le nombre, la position et le symbole des pics. L’architecture du modèle comprend quatre modules principaux : 1. Module d’extraction des caractéristiques moléculaires : Basé sur un réseau de neurones graphiques géométriquement amélioré (GeoGCN), il extrait les informations géométriques et descriptives des graphes d’atomes-liens et d’angles-liens de la molécule. 2. Module d’apprentissage des propriétés des pics : Utilise une structure de codeur Transformer pour extraire les informations relatives aux pics à partir des caractéristiques moléculaires. 3. Module de prédiction des propriétés des pics : Prédit séparément le nombre, la position et le symbole des pics. 4. Module de rendu des spectres : Reconstruit le spectre ECD à partir des propriétés prédites des pics.
Objets et traitements de l’étude
Les entrées sont les caractéristiques d’atomes-liens-angles et les descripteurs moléculaires de la molécule cible. Le modèle apprend la représentation moléculaire via un GNN géométriquement amélioré et utilise un encodeur Transformer pour extraire les propriétés des pics.
Résultats expérimentaux
ECDformer montre d’excellentes performances dans la prédiction des propriétés des pics, avec une précision du symbole des pics passant de 37,3 % à 72,7 %, et le temps de prédiction des spectres passant de 4,6 heures CPU en moyenne à 1,5 seconde.
3. Évaluation des performances du modèle
Description du processus
L’équipe de recherche a utilisé trois ensembles de métriques d’évaluation basées sur les propriétés des pics pour évaluer les performances d’ECDformer : l’erreur quadratique moyenne (RMSE) du nombre de pics, la RMSE de la position des pics et la précision du symbole des pics.
Objets et traitements de l’étude
Les objets d’évaluation sont des molécules chirales du jeu de données CMCDS, où les propriétés prédites des pics par le modèle sont comparées aux spectres réels.
Résultats expérimentaux
ECDformer surpasse tous les modèles de référence sur toutes les métriques d’évaluation, en particulier dans la prédiction de spectres complexes (nombre de pics > 5). Les distributions des différences de position et de symbole montrent également que les prédictions d’ECDformer sont plus proches des vraies valeurs.
4. Interprétabilité et capacité de généralisation du modèle
Description du processus
En utilisant la méthode des gradients intégrés, l’équipe de recherche a identifié les régions moléculaires contribuant le plus à la génération des spectres, révélant que les structures des chromophores jouent un rôle clé dans la prédiction des pics. De plus, ECDformer montre d’excellentes performances dans la prédiction des spectres infrarouges (IR) et de masse (MS), démontrant sa forte capacité de généralisation.
Objets et traitements de l’étude
Les objets d’étude incluent divers produits naturels et molécules pharmaceutiques, tels que des composés ayant des effets antiviraux, antagonistes et anti-inflammatoires.
Résultats expérimentaux
ECDformer peut prédire avec précision les spectres ECD de ces produits naturels complexes et a montré une bonne performance dans les tâches de prédiction des spectres de masse et infrarouges.
Conclusions de la recherche
Signification et valeur de la recherche
La contribution principale de cette étude est de proposer un cadre de prédiction des spectres ECD efficace et interprétable, résolvant les lacunes des méthodes existantes en termes de rareté des données et d’interprétabilité. Grâce à la construction d’un jeu de données à grande échelle et à l’introduction de modèles d’apprentissage profond, ECDformer a significativement amélioré la précision et l’efficacité de la prédiction des spectres. De plus, la méthode de découplage des pics du modèle améliore non seulement la précision des prédictions, mais fournit également une interprétabilité accrue du processus de génération des spectres.
Points innovants de la recherche
- Jeu de données CMCDS à grande échelle : Comble le vide des données spectroscopiques ECD pour les molécules chirales, fournissant des données de haute qualité pour l’entraînement des modèles d’apprentissage profond.
- Modèle ECDformer : Grâce au découplage des pics et à la prédiction des propriétés, il améliore considérablement la précision et l’efficacité de la prédiction des spectres.
- Capacité de généralisation : ECDformer peut prédire avec précision les spectres infrarouges et de masse, démontrant son potentiel d’application large dans diverses tâches de prédiction spectrale.
Autres informations utiles
L’équipe de recherche a également exploré le potentiel d’ECDformer dans l’inférence de structures moléculaires. Bien que le modèle actuel ne puisse pas reconstruire complètement la structure moléculaire à partir des spectres, il montre une certaine capacité à identifier les orbitales moléculaires et les groupes fonctionnels. Les recherches futures optimiseront davantage le jeu de données, en particulier en ajoutant des données sur les molécules à centres chiraux multiples, afin d’améliorer la capacité du modèle à représenter de manière exhaustive les structures chirales.