Pré-entraînement renforcé par la géométrie sur les potentiels interatomiques

Pré-entraînement auto-supervisé géométriquement renforcé pour les interactions interatomiques

Introduction

La dynamique moléculaire (DM) joue un rôle important dans les domaines de la physique, la chimie, la biologie et la science des matériaux, en fournissant des informations au niveau atomique. La précision et l’efficacité des simulations DM dépendent de la fonction des potentiels interatomiques choisie pour décrire les interactions entre atomes dans le système moléculaire. La DM classique utilise des formules empiriques paramétrées à un coût de calcul faible mais avec une précision insuffisante. La DM ab initio résout l’équation de Schrödinger pour obtenir des interactions précises, mais le coût de calcul est extrêmement élevé. Par conséquent, les potentiels interatomiques appris par machine (MLIPs) qui interpolent les énergies et forces calculées ab initio à l’aide de modèles d’apprentissage automatique atteignent une précision quasi ab initio avec une plus grande efficacité, devenant ainsi une alternative prometteuse.

Les performances et la généralité des MLIPs sont limitées par la rareté des données étiquetées, car l’obtention de ces dernières nécessite un coût de calcul ab initio considérable. Diverses méthodes d’apprentissage auto-supervisé ont été explorées pour apprendre des représentations générales à partir d’une grande quantité de données non étiquetées, puis affiner ces représentations sur des données étiquetées limitées pour extraire des informations spécifiques à la tâche. Cependant, les méthodes existantes ont des limites dans la constitution des ensembles de données de pré-entraînement et la conception des tâches de pré-entraînement pour le domaine des MLIPs.

Aperçu de l’étude

Ce papier propose un cadre d’apprentissage auto-supervisé géométriquement renforcé pour les MLIPs, nommé GPIP. Ce cadre comprend deux composants principaux :

  1. Génération de structures géométriques : utilisation de champs de force empiriques pour effectuer des simulations de dynamique moléculaire classique et générer efficacement un grand nombre de géométries moléculaires comme données de pré-entraînement non étiquetées.

  2. Pré-entraînement renforcé géométriquement : conception de trois tâches de pré-entraînement auto-supervisées complémentaires, le masquage, le débruitage et l’apprentissage par contraste, pour capturer simultanément les informations topologiques et spatiales à partir des données de structure non étiquetées générées.

Grâce aux deux étapes de GPIP, les MLIPs peuvent considérablement améliorer leurs performances en ne consommant que peu de ressources de calcul. Cette méthode ne dépend d’aucun ensemble de données existant, ne nécessitant que la génération de trajectoires DM dans le système moléculaire cible, évitant ainsi les limites des systèmes couverts par les ensembles de données existants et offrant une excellente généralité.

Le papier évalue les performances de GPIP sur un large éventail de benchmarks allant des petites molécules aux systèmes périodiques complexes, démontrant son efficacité et sa robustesse. De plus, un nouvel ensemble de données d’électrolytes contenant plus d’éléments et de configurations complexes a été développé pour évaluer plus complètement les capacités des MLIPs.

Flux de travail de la recherche

a) Vue d’ensemble du flux

  1. Utiliser la dynamique moléculaire classique pour simuler et générer un grand nombre de conformations géométriques du système moléculaire cible en tant que données non étiquetées.

  2. Appliquer trois tâches d’apprentissage auto-supervisé géométriquement renforcées aux conformations non étiquetées générées : débruitage masqué, reconstitution masquée bruitée et apprentissage par contraste, pour pré-entraîner un réseau de neurones de graphe (GNN) à capturer les informations topologiques et spatiales des conformations.

  3. Affiner le GNN pré-entraîné sur un petit ensemble de données calculées ab initio pour apprendre les informations spécifiques à la tâche.

b) Détails

Génération de données non étiquetées

Pour les systèmes MD17, ISO17, eau liquide et électrolyte de complexité croissante, le logiciel de dynamique moléculaire classique LAMMPS avec des champs de force empiriques tels que OPLS-AA, TIP3P, etc. ont été utilisés pour simuler des trajectoires DM à différentes températures, à partir desquelles de nombreuses conformations moléculaires ont été échantillonnées pour constituer des ensembles de données de pré-entraînement non étiquetées.

Tâches d’apprentissage auto-supervisé

  1. Débruitage masqué : masquer aléatoirement des caractéristiques d’atomes, bruiter leurs coordonnées, et entraîner le GNN à inférer les caractéristiques des atomes masqués à partir des atomes visibles.

  2. Reconstitution masquée bruitée : masquer aléatoirement des caractéristiques d’atomes, bruiter les coordonnées de la conformation entière, et entraîner le GNN à prédire le bruit additif plutôt qu’à reconstruire la conformation d’origine, pour forcer la capture d’informations spatiales.

  3. Apprentissage par contraste avec réseaux 3D : construire un réseau 3D pour capturer les informations de structure 3D globales de la molécule, et maximiser l’information mutuelle entre les sorties du GNN et du réseau 3D pour permettre au GNN d’apprendre également les informations 3D globales.

Affinement

Après le pré-entraînement non supervisé sur les trois tâches ci-dessus, le GNN pré-entraîné est affiné de manière supervisée sur un petit ensemble de données étiquetées ab initio pour apprendre davantage les informations pertinentes pour la tâche, comme les énergies et forces.

c) Conclusions de la recherche

  1. GPIP améliore grandement la précision et la capacité de généralisation des MLIPs sur divers benchmarks.

  2. Le coût de calcul de GPIP est extrêmement faible, offrant un avantage en termes de coût par rapport à l’augmentation des données étiquetées ab initio.

  3. Les trois tâches auto-supervisées sont complémentaires, une seule tâche ayant des performances limitées, tandis que leur combinaison permet de capturer efficacement les informations topologiques et spatiales des conformations.

  4. GPIP a une excellente généralité, ne dépendant d’aucun ensemble de données a priori, évitant ainsi les limites des systèmes couverts par les ensembles de données existants.

d) Signification de la recherche

  1. Signification scientifique : proposition d’un nouveau paradigme de pré-entraînement économique, efficace et générique pour les MLIPs, résolvant les limites en matière de données et de conception des tâches de pré-entraînement.

  2. Valeur applicative : amélioration de la précision des simulations MLIPs pour divers systèmes moléculaires, favorisant leur application dans de multiples domaines.

e) Points forts innovants de la recherche

  1. Idée innovante d’utiliser des conformations MD non étiquetées pour le pré-entraînement, évitant les calculs ab initio coûteux.

  2. Conception unique d’un cadre d’apprentissage auto-supervisé multi-tâches combinant masquage, débruitage et contraste.

  3. Développement d’un nouvel ensemble de données d’électrolytes pour une évaluation plus complète des capacités des MLIPs.

  4. Évaluation expérimentale approfondie couvrant divers benchmarks et niveaux de complexité moléculaire.

Cette étude fournit une solution efficace pour les MLIPs à faible coût et haute performance, reflétant des innovations dans les domaines de l’apprentissage auto-supervisé et de la simulation moléculaire.