Apprentissage par renforcement multi-agents déterministe distribué basé sur le consensus de politique
Rapport de recherche sur l’apprentissage par renforcement multi-agent déterministe distribué basé sur le consensus de politique
L’apprentissage par renforcement (Reinforcement Learning, RL) a fait des avancées significatives ces dernières années dans divers domaines, notamment la robotique, les réseaux électriques intelligents et la conduite autonome. Cependant, dans de nombreux scénarios réels, il existe des problèmes d’apprentissage coopératif multi-agent (Multi-Agent Reinforcement Learning, MARL). Le principal défi de ces problèmes réside dans la conception d’algorithmes MARL collaboratifs et efficaces, en particulier lorsqu’ils sont contraints par des limitations de communication ou des exigences de protection de la vie privée. Actuellement, la plupart des algorithmes MARL adoptent un paradigme largement utilisé, l’entraînement centralisé avec exécution décentralisée (Centralized Training with Decentralized Execution, CTDE). Bien que ce paradigme permette de résoudre efficacement les problèmes de non-stationnarité de l’environnement, sa dépendance à des communications intensives et à des traitements centralisés le rend vulnérable face aux défaillances de liaison et aux limitations de bande passante dans les déploiements réels. Par conséquent, il est crucial d’étudier les performances des algorithmes MARL distribués dans des conditions où les besoins en communication sont réduits.
Les travaux présentés ici ciblent ces problématiques et visent à surmonter les limitations des approches existantes via la conception d’un algorithme MARL distribué basé sur le consensus de politique. L’équipe de recherche comprend Yifan Hu, Junjie Fu, Guanghui Wen de l’École de Mathématiques de Southeast University, ainsi que Changyin Sun de l’École d’Intelligence Artificielle de Anhui University. Cet article a été publié en janvier 2025 dans le IEEE Transactions on Artificial Intelligence.
Contexte et objectifs de la recherche
Les algorithmes MARL actuels rencontrent toujours des difficultés dans des scénarios impliquant des espaces d’états et d’actions continus de haute dimension. Par exemple, la plupart des méthodes existantes se concentrent sur des configurations en espace discret et manquent d’analyses théoriques pour l’apprentissage dans des espaces continus. De plus, de nombreux algorithmes supposent que le graphe de communication est non orienté, alors que dans les tâches réelles, le réseau de communication est souvent orienté. Par ailleurs, les capacités d’apprentissage distribué des algorithmes MARL nécessitent encore des améliorations, notamment en comparaison avec des algorithmes centralisés avancés.
Cet article propose un algorithme déterministe Actor-Critic distribué basé sur le gradient de politique déterministe (Deterministic Policy Gradient, DPG). L’objectif principal est d’intégrer des mécanismes de consensus pour les mises à jour des paramètres des politiques et fonctions de valeur, afin de faciliter l’apprentissage collaboratif dans des espaces d’états et d’actions continus de haute dimension. En outre, l’article propose une garantie théorique de convergence et améliore la scalabilité, la capacité d’exploration et l’efficacité des données via une architecture d’apprentissage profond (Deep RL, DRL).
Méthodologie et conception de l’étude
Les travaux de l’article couvrent plusieurs étapes allant de la construction théorique à la mise en œuvre pratique :
1. Conception théorique de l’algorithme distribué
Les auteurs partent du théorème classique de gradient de politique déterministe pour proposer un théorème DPG local adapté aux MARL distribués. Ce théorème repose sur des politiques basées sur les observations et permet la mise à jour des paramètres via un consensus appliqué aux réseaux Critic et Actor. En supposant un graphe fortement connexe et orienté, et en se basant sur la théorie de l’approximation stochastique, la convergence asymptotique de cet algorithme théorique est démontrée sous certaines hypothèses.
Les règles de mise à jour de l’algorithme comprennent deux étapes principales : la mise à jour des paramètres du réseau Critic via l’erreur temporelle locale (Temporal Difference, TD) suivie d’une mise à jour par consensus, et la mise à jour des paramètres du réseau Actor via une estimation locale du gradient de politique combinée à un consensus.
2. Conception pratique de l’algorithme
Bien que l’algorithme théorique ait une garantie de convergence, ses performances peuvent être limitées par des hypothèses simplificatrices telles que l’utilisation d’un approximateur linéaire, une politique déterministe et un taux d’apprentissage décroissant. Pour résoudre ces problèmes, les auteurs intègrent des architectures DRL pour proposer un algorithme pratique distribué Actor-Critic déterministe profond (Distributed Deep Deterministic Actor-Critic, D3-AC). Les améliorations incluent :
- Conception des réseaux : Les réseaux Actor et Critic sont des réseaux neuronaux (Neural Networks, NN) évolutifs. Le réseau Critic utilise un réseau de convolution par graphe (Graph Convolutional Network, GCN) pour capturer les interactions complexes entre les agents, résolvant ainsi les problèmes de scalabilité.
- Mécanisme d’expérience reproduite : Chaque agent maintient un tampon d’expérience (replay buffer) pour améliorer l’efficacité des échantillons, complété par des réseaux cibles pour réduire les oscillations d’entraînement.
- Politique d’exploration stochastique : Une exploration renforcée en ajoutant des bruits gaussiens.
L’algorithme combine une mise à jour locale des paramètres avec des mécanismes de consensus distribués.
Expériences et analyses des résultats
Description des tâches
Les auteurs ont basé leurs expériences sur le Multi-Agent Particle Environment (MPE) et conçu trois tâches coopératives robotiques typiques :
- Contrôle de couverture : Les agents doivent couvrir une zone cible tout en évitant les collisions ;
- Contrôle circulaire : Les agents doivent se positionner uniformément sur un cercle autour d’un marqueur cible tout en évitant les collisions ;
- Contrôle carré : Les agents doivent se distribuer uniformément le long des côtés d’un carré défini par des marqueurs tout en évitant les collisions.
Chaque tâche inclut des scénarios de 8 et 16 agents.
Comparaison des algorithmes
Les performances de D3-AC sont comparées à celles des algorithmes suivants :
- PIC : Un algorithme centralisé avec une politique partagée entre tous les agents.
- MATD3 : Chaque agent utilise un Critic centralisé mais entraîne ses propres politiques localement.
- D2-AC : Un Actor-Critic distribué utilisant le gradient de politique stochastique et des mécanismes de consensus.
Les résultats montrent :
- Performance globale : Les algorithmes centralisés (PIC et MATD3) assurent des performances et une stabilité élevées pour toutes les tâches. D3-AC atteint des performances similaires aux algorithmes centralisés tout en utilisant beaucoup moins de ressources de communication.
- Comparaison avec D2-AC : D3-AC surpasse D2-AC dans des espaces d’actions continus, offrant une stabilité nettement améliorée en apprentissage.
- Efficacité de communication : En utilisant une communication distribuée sur des graphes clairsemés, D3-AC réduit significativement la charge de communication de chaque agent.
Expériences supplémentaires
- Impact du nombre de voisins : En variant le nombre de voisins dans le graphe de communication, les résultats indiquent qu’une densité modérée permet un meilleur apprentissage tout en préservant une bonne exploration.
- Communication intermittente : Les expériences montrent que D3-AC reste robuste en cas de défaillances de liaison grâce à sa capacité à s’adapter aux communications intermittentes.
- Observation locale : Une version adaptée de D3-AC (D3-AC-L) démontre des capacités d’apprentissage efficaces même lorsqu’un agent dispose d’une vision locale limitée de l’environnement.
Conclusion et implications
Cet article propose un nouvel algorithme Actor-Critic déterministe profond distribué basé sur le consensus (D3-AC). Théoriquement, l’algorithme combine un gradient de politique déterministe local et des mécanismes de consensus, surmontant les contraintes des cadres centralisés et offrant une garantie de convergence asymptotique dans des graphes orientés et des espaces continus. Pratiquement, en intégrant l’apprentissage profond, D3-AC s’est montré efficace, extensible et stable dans des tâches multi-agent complexes.
Contributions et points saillants
- Une solution distribuée adaptée aux espaces continus et aux graphes orientés ;
- Une confirmation théorique et expérimentale des bénéfices des mises à jour par consensus ;
- Une réduction des besoins en ressources de communication, applicable à des systèmes multi-agents pratiques comme les flottes de drones ou les réseaux de capteurs.
Perspectives futures
D3-AC constitue une base théorique solide pour les systèmes multi-agents distribués aux capacités limitées de communication. De futures recherches visent à améliorer ses performances dans des scénarios d’observation limitée et à l’étendre au domaine des apprentissages sécurisés multi-agents.