Gradient de politique déterministe profond à double acteur-critique retardé avec mémoire épisodique

Contexte académique

L’apprentissage par renforcement profond (Deep Reinforcement Learning, DRL) a réalisé des accomplissements remarquables dans divers domaines tels que les jeux, la robotique, la navigation, la vision par ordinateur et la finance. Cependant, les algorithmes DRL existants souffrent généralement d’un problème d’efficacité d’échantillonnage, c’est-à-dire qu’ils nécessitent une grande quantité de données et d’étapes de formation pour atteindre des performances idéales. En particulier, dans les tâches d’action continue, en raison de la haute dimensionnalité de l’espace état-action, les algorithmes DRL traditionnels ont du mal à exploiter efficacement la mémoire épisodique (Episodic Memory) pour guider la sélection des actions, ce qui réduit encore l’efficacité de l’échantillonnage.

La mémoire épisodique est une méthode de contrôle non paramétrique qui améliore l’efficacité de l’échantillonnage en mémorisant des expériences historiques à haut rendement. Dans les tâches d’action discrète, la mémoire épisodique peut être utilisée directement pour évaluer chaque action possible et sélectionner l’action avec la valeur estimée la plus élevée. Cependant, dans les tâches d’action continue, l’espace d’action est infini, ce qui rend difficile l’application directe des méthodes traditionnelles de mémoire épisodique à la sélection des actions. Par conséquent, la manière d’exploiter efficacement la mémoire épisodique dans les tâches d’action continue pour améliorer l’efficacité de l’échantillonnage est devenue une question importante dans la recherche actuelle sur le DRL.

Source de l’article

Cet article a été co-écrit par Man Shu, Shuai Lü, Xiaoyu Gong, Daolong An et Songlin Li, tous affiliés au Laboratoire clé du ministère de l’Éducation pour le calcul symbolique et l’ingénierie des connaissances de l’Université de Jilin, à l’Institut d’optique, de mécanique de précision et de physique de Changchun, ainsi qu’au Collège des sciences et technologies informatiques de l’Université de Jilin. L’article a été publié en 2025 dans la revue Neural Networks sous le titre Episodic Memory-Double Actor–Critic Twin Delayed Deep Deterministic Policy Gradient.

Contenu de la recherche

Processus de recherche

1. Problème de recherche et objectifs

L’objectif principal de cette étude est de résoudre le problème de l’efficacité d’échantillonnage des algorithmes DRL dans les tâches d’action continue. Les auteurs proposent un nouveau cadre appelé “Mémoire épisodique-Double Actor-Critic (Episodic Memory-Double Actor-Critic, EMDAC)”, visant à améliorer l’efficacité de l’échantillonnage en utilisant la mémoire épisodique pour guider la sélection des actions. Plus précisément, le cadre EMDAC combine la mémoire épisodique et les réseaux Double Critic pour évaluer la valeur des paires état-action, réduisant ainsi l’impact négatif des biais d’estimation des réseaux Critic sur l’efficacité de l’échantillonnage.

2. Conception du cadre EMDAC

Le cœur du cadre EMDAC réside dans l’utilisation de la mémoire épisodique et des réseaux Double Critic pour évaluer la valeur des actions. Le processus spécifique est le suivant : - Réseaux Double Actor : Le cadre EMDAC comprend deux réseaux Actor, chacun dépendant de deux réseaux Critic. Chaque réseau Actor produit une action candidate. - Mémoire épisodique : La mémoire épisodique est utilisée pour stocker les estimations de valeur des paires état-action à haut rendement passées. Les auteurs ont conçu une méthode de mise à jour de la mémoire épisodique basée sur le filtre de Kalman (Kalman Filter), permettant une estimation plus précise de la valeur des paires état-action. - Sélection des actions : Dans le processus de sélection des actions, le cadre EMDAC combine la mémoire épisodique et les réseaux Critic pour évaluer la valeur des deux actions candidates, puis sélectionne l’action avec la valeur estimée la plus élevée.

3. Mémoire épisodique basée sur le filtre de Kalman

Les méthodes traditionnelles de mise à jour par moyenne attribuent le même poids aux expériences collectées tôt et tard, ce qui entraîne un biais d’estimation important dans la mémoire épisodique. Pour résoudre ce problème, les auteurs proposent une méthode de mise à jour de la mémoire épisodique basée sur le filtre de Kalman. Cette méthode attribue des poids différents aux expériences collectées à différentes périodes de formation, améliorant ainsi la précision de la mémoire épisodique.

4. Récompense intrinsèque basée sur la mémoire épisodique

Pour renforcer la capacité d’exploration de l’agent, les auteurs ont conçu une récompense intrinsèque (Intrinsic Reward) basée sur la mémoire épisodique. Cette récompense encourage l’agent à explorer des paires état-action plus novatrices, évitant ainsi de rester coincé dans des optima locaux.

5. Algorithme EMDAC-TD3

Les auteurs ont appliqué le cadre EMDAC, la mémoire épisodique basée sur le filtre de Kalman et la récompense intrinsèque à l’algorithme Twin Delayed Deep Deterministic Policy Gradient (TD3), proposant ainsi l’algorithme EMDAC-TD3. Cet algorithme a été évalué dans les environnements Mujoco d’OpenAI Gym, montrant une efficacité d’échantillonnage supérieure à celle des algorithmes de base.

Résultats principaux

1. Amélioration de l’efficacité d’échantillonnage

Les résultats expérimentaux dans les environnements Mujoco montrent que l’algorithme EMDAC-TD3 surpasse significativement l’algorithme de base TD3 en termes d’efficacité d’échantillonnage. Plus précisément, EMDAC-TD3 peut obtenir des récompenses plus élevées avec le même nombre d’étapes de formation, ou atteindre les mêmes performances avec moins d’étapes de formation.

2. Comparaison des performances finales

Par rapport aux algorithmes de contrôle épisodique et aux algorithmes Actor-Critic les plus avancés, EMDAC-TD3 excelle en termes de récompenses finales, de médiane, de moyenne interquartile et de moyenne. Par rapport à TD3, EMDAC-TD3 améliore la performance moyenne de 11,01 %.

3. Efficacité de la mémoire épisodique

En comparant les performances d’EMDAC-TD3 avec celles de ses variantes, les auteurs ont validé l’efficacité de la mémoire épisodique dans l’amélioration de l’efficacité de l’échantillonnage. Les résultats expérimentaux montrent que l’évaluation de la valeur des paires état-action en combinant la mémoire épisodique et les réseaux Critic peut significativement améliorer l’efficacité de l’échantillonnage.

4. Capacité d’exploration de la récompense intrinsèque

Les résultats expérimentaux dans l’environnement SparseMujoco montrent que la récompense intrinsèque basée sur la mémoire épisodique peut efficacement renforcer la capacité d’exploration de l’agent, lui permettant de mieux performer dans les tâches à récompenses éparses.

Conclusion

Cette étude propose un nouveau cadre EMDAC, qui améliore l’efficacité de l’échantillonnage des algorithmes DRL dans les tâches d’action continue en combinant la mémoire épisodique et les réseaux Double Critic. La méthode de mise à jour de la mémoire épisodique basée sur le filtre de Kalman et la conception de la récompense intrinsèque améliorent encore les performances de l’algorithme. Les résultats expérimentaux montrent qu’EMDAC-TD3 surpasse les algorithmes les plus avancés actuels en termes d’efficacité d’échantillonnage et de performances finales.

Points forts de la recherche

  1. Cadre innovant : Le cadre EMDAC combine pour la première fois la mémoire épisodique et les réseaux Double Critic pour évaluer la valeur des actions dans les tâches d’action continue, résolvant le problème de l’application directe des méthodes traditionnelles de mémoire épisodique.
  2. Mémoire épisodique basée sur le filtre de Kalman : En attribuant des poids différents aux expériences de différentes périodes, la précision de la mémoire épisodique est améliorée.
  3. Conception de la récompense intrinsèque : La récompense intrinsèque basée sur la mémoire épisodique renforce la capacité d’exploration de l’agent, lui permettant de mieux performer dans les tâches à récompenses éparses.
  4. Validation expérimentale étendue : Les résultats expérimentaux dans les environnements Mujoco et SparseMujoco montrent qu’EMDAC-TD3 surpasse les algorithmes les plus avancés actuels en termes d’efficacité d’échantillonnage et de performances finales.

Valeur de la recherche

Cette étude propose non seulement un nouveau cadre théorique pour le DRL, mais valide également son efficacité dans des tâches pratiques. La proposition du cadre EMDAC offre de nouvelles perspectives pour les algorithmes DRL dans les tâches d’action continue, avec des perspectives d’application étendues, en particulier dans les domaines du contrôle robotique, de la conduite autonome et des transactions financières.