Apprentissage par renforcement pour la navigation coopérative multi-agents dans un environnement hybride avec apprentissage relationnel par graphe

2025-02-05 Wed
système multi-agents apprentissage par renforcement apprentissage relationnel par graphe environnement hybride navigation coopérative exécution décentralisée évitage des collisions
Recherche sur la navigation coopérative en environnement hybride multi-agents : Une nouvelle méthode d’apprentissage par renforcement basée sur l’apprentissage relationnel par grapheLa technologie des robots mobiles connaît un essor grâce au développement du domaine de l’intelligence artificielle, la capacité de navigation restant l’un des axes de recherche essentiels. Les méthodes traditionnelles de navigation font face à de nombreux défis lorsqu’il s’agit de gérer des environnements dynamiques, d’éviter les obstacles et d’accomplir des tâches collaboratives pour plusieurs robots, notamment des problèmes de complexité algorithmique, de consommation de ressources informatiques et d’adaptabilité des modèles. Pour répondre à ces enjeux, une équipe de recherche de la Central South University et de la Zhejiang University of Technology a proposé une nouvelle méthode basée sur un réseau d’attention par graphe (Graph Attention Network, GAT), nommée GAR-CoNav. Cette méthode fournit une solution novatrice au problème de navigation coopérative multi-robot (Multi-Robot Cooperative Navigation Problem, MCNP) en environnement hybride. Publié dans la revue IEEE Transactions on Artificial Intelligence, cet article présente un nouveau modèle et démontre son efficacité dans des simulations d’environnements hybrides complexes.
Contexte et importance de la rechercheAvec la maturité croissante des technologies d’intelligence artificielle et des robots, les besoins de collaboration entre plusieurs robots dans des environnements dynamiques complexes se font de plus en plus pressants. L’objectif du MCNP est de comprendre comment plusieurs robots peuvent collaborer, éviter les obstacles et naviguer efficacement vers leurs objectifs respectifs. Résoudre ce problème est crucial non seulement pour des secteurs comme la fabrication et la logistique, mais aussi pour d’autres domaines comme les transports intelligents, la sécurité publique et l’inspection de bâtiments.
Actuellement, les solutions au MCNP se divisent principalement en méthodes centralisées et décentralisées. Les méthodes centralisées reposent sur une observation globale de l’environnement mais exigent d’énormes ressources de calcul et manquent de flexibilité. De leur côté, les méthodes décentralisées mettent l’accent sur l’autonomie, mais l’instabilité de l’environnement limite leur efficacité et leur fiabilité. En outre, les approches actuelles gèrent mal les environnements dynamiques et multi-objectifs complexes, puisqu’elles ignorent souvent la flexibilité nécessaire à la répartition des tâches et supposent des objectifs assignés statiquement.
Pour répondre à ces défis, les auteurs ont conçu un cadre de formation centralisée et d’exécution décentralisée (Centralized Training and Decentralized Execution, CTDE) qui combine le réseau d’attention par graphe et l’apprentissage par renforcement, ce qui permet à leur modèle GAR-CoNav d’accomplir une navigation multi-objectifs coopérative avec extensibilité.
Auteurs et publicationL’article a été rédigé par Wen Ou, Biao Luo, Xiaodong Xu, Yu Feng et Yuqian Zhao, dont Biao Luo et Yu Feng sont membres seniors de l’IEEE (Senior Member, IEEE). Les membres de l’équipe de recherche sont affiliés à l’École d’automatique de la Central South University et à l’École d’ingénierie de l’information de la Zhejiang University of Technology. L’article a été publié en ligne en août 2024 et inclus dans le numéro de janvier 2025 de la revue IEEE Transactions on Artificial Intelligence.
Méthodes et processus de rechercheArchitecture de l’étude et description du problèmeLes auteurs modélisent le MCNP comme un processus décisionnel markovien partiellement observable décentralisé (Decentralized Partially Observable Markov Decision Process, Dec-POMDP). Ils y intègrent une méthode de représentation globale de l’environnement hybride en combinant le codage par obstacles de vitesse (VO, Velocity Obstacle) et la structure de graphe.
Les étapes principales de l’étude comprennent :
1. Construction de la représentation graphique et règles de connexion :

L’environnement hybride est représenté par un graphe où les nœuds représentent les agents, obstacles statiques, obstacles dynamiques, et cibles, et les arêtes représentent leurs relations d’interaction. Les règles de connexion sont définies comme suit :

- Les nœuds d’agent sont influencés par tous les autres nœuds.
- Les nœuds d’obstacle dynamique sont influencés uniquement par d’autres obstacles.
- Les nœuds d’obstacle statique et les cibles ne sont pas influencés par d’autres nœuds.
Ces règles assurent une cohérence avec les propriétés dynamiques de l’environnement hybride tout en empêchant les robots d’adopter une politique agressive envers les obstacles dynamiques.
2. Codage et représentation des caractéristiques :

Chaque nœud est représenté par un vecteur d’attributs spécifiques. Par exemple, les nœuds agents incluent la position, la vitesse, le rayon, et l’orientation, tandis que les obstacles et cibles utilisent également des vecteurs dérivés des cônes VO pour indiquer les informations de collision potentielles. Ces caractéristiques sont concatenées dans une matrice parcimonieuse, qui est ensuite introduite dans le réseau de neurones graphiques avec une matrice d’adjacence.
3. Algorithme d’apprentissage par renforcement et conception des récompenses :

La partie apprentissage par renforcement repose sur la structure CTDE utilisant des GAT :
- Réseau d’attention par graphe (GAT) : Explore les poids dynamiques d’interaction entre nœuds, générant une nouvelle représentation d’état.
- Réseau GRU bidirectionnel (Bi-GRU) : Traite les caractéristiques des obstacles pour capturer les dynamiques séquentielles.
- Conception de la fonction de récompense : Elle inclut des récompenses partagées et individuelles, puni sévèrement les comportements de collision, tout en encourageant une arrivée coopérative aux destinations.
Expérimentations et résultats de rechercheUn ensemble d’expériments est réalisé dans des environnements simulés de haute complexité. Les tâches principales incluent l’évitement d’obstacles, les parcours de cibles (traversal) et la couverture des cibles (coverage).
1. Environnement de simulationLes environnements simulés incluent des obstacles hybrides (statiques et dynamiques) et des configurations multi-objectifs, où les robots n’ont accès qu’à des observations locales. Un exemple d’environnement est décrit comme (3, 4, 3, 3) : 3 robots, 4 obstacles statiques, 3 obstacles dynamiques, et 3 cibles.
2. Test de performance d’évitement d’obstaclesDans les tests d’évitement, GAR-CoNav surpasse significativement d’autres modèles comme RL-RVO et NH-ORCA. Que l’environnement contienne majoritairement des obstacles statiques ou dynamiques, GAR-CoNav montre un taux de collision (Collision Rate, Rc) et un taux de danger (Danger Rate, Rd) plus faibles, tout en générant des trajectoires équilibrant sécurité et efficacité.
3. Test de navigation coopérativeDans les tâches de traversal et de coverage, GAR-CoNav offre les meilleures performances :
- Capacité à répartir les cibles dynamiquement, ce qui augmente le taux de réussite (Success Rate, Rs).
- Ajustement en temps réel lors de la navigation, optimisant les plans globaux.
Certaines visualisations trajectorielles montrent des comportements émergents de coopération entre les robots. Par exemple, face à des conflits de ressources, les robots priorisent l’efficacité collective pour trouver de meilleures solutions globales.
Répercussions et contributionsValeur scientifique :

GAR-CoNav surmonte les limites des systèmes centralisés et décentralisés classiques, en abordant des défis comme l’évitement d’obstacles dynamiques, la flexibilité dans la répartition des tâches, et la collaboration multi-agents. Il illustre l’application des GAT et de l’apprentissage par renforcement à des problèmes complexes comme le MCNP.
Valeur pratique :

Les résultats peuvent être directement appliqués à des domaines tels que l’optimisation logistique, la gestion du trafic aérien par drones, et la planification multi-agents dans les villes intelligentes.
Points d’innovation :

a) Intégration du codage VO dans les réseaux graphiques pour la modélisation des environnements dynamiques ;

b) Mécanisme de répartition des cibles par attention ;

c) Fonction de récompense combinée favorisant à la fois l’évitement local et la coopération globale.
Conclusion et perspectivesComparé aux approches traditionnelles comme RL-RVO, GAR-CoNav démontre des performances supérieures en environnement hybride et dans des tâches complexes multi-objectifs. Cet article propose un cadre novateur pour les problèmes de navigation coopérative. À l’avenir, les travaux viseront à améliorer l’efficacité pour les tâches individuelles et à répondre aux défis de migration “Sim-to-Real”, afin de mieux répondre aux exigences réelles.