Régulation de sortie coopérative des systèmes multi-agents dirigés hétérogènes : un cadre d'apprentissage par renforcement entièrement distribué et sans modèle

Étude sur la régulation coopérative de sortie des systèmes multi-agents hétérogènes dirigés : Un cadre d’apprentissage par renforcement entièrement distribué et sans modèle

Introduction au contexte

Ces dernières années, les recherches sur le contrôle et l’optimisation distribués ont montré un grand potentiel d’application dans les domaines tels que les transports intelligents, les réseaux électriques intelligents et les systèmes énergétiques distribués. Ces systèmes nécessitent généralement une coopération entre plusieurs agents intelligents pour accomplir des tâches spécifiques, parmi lesquelles le problème fondamental de régulation coopérative de sortie (Cooperative Output Regulation, COR). Ce problème vise à concevoir des protocoles de contrôle adaptés pour permettre à tous les agents d’un système multi-agents de suivre un signal de référence et, finalement, de réaliser une erreur de suivi nulle. Cependant, résoudre ce type de problème nécessite souvent des informations dynamiques précises des agents, ce qui est difficile à obtenir dans la réalité en raison d’environnements complexes et de non-linéarités fortement couplées, voire trop coûteux en termes de mesures.

De plus, les réseaux de communication des systèmes multi-agents étant souvent orientés (c’est-à-dire avec transmission asymétrique d’informations), cela augmente encore la difficulté de traiter ce problème. Les recherches actuelles se concentrent largement sur les graphes non orientés, tandis que les systèmes multi-agents régis par des graphes orientés présentent davantage de complexité, particulièrement en présence de modèles lacunaires ou lorsque l’accès à l’information est limité. Ainsi, concevoir un contrôle qui soit à la fois complètement distribué, basé sur un mécanisme déclenché par événements (Event-Triggered Mechanism, ETM) et indépendant des modèles, demeure un défi important à relever.

Origine de l’article

L’article intitulé « Cooperative Output Regulation of Heterogeneous Directed Multi-Agent Systems: A Fully Distributed Model-Free Reinforcement Learning Framework », dont les auteurs incluent Xiongtao Shi, Yanjie Li (auteur principal), Chenglong Du (auteur principal), Huiping Li, Chaoyang Chen et Weihua Gui, proviennent de plusieurs institutions, notamment l’Institut de Technologie de Harbin (Shenzhen), l’Université Centrale du Sud, l’Université Polytechnique du Nord-Ouest et l’Université des Sciences et Technologies du Hunan. Cet article a été publié dans le journal Science China Information Sciences, en février 2025, volume 68, numéro 2, avec le numéro d’article 122202. Cet article propose un cadre de contrôle entièrement distribué basé sur l’apprentissage par renforcement sans modèle (model-free reinforcement learning) pour résoudre le problème COR dans des systèmes multi-agents hétérogènes dirigés lorsque les modèles dynamiques sont inconnus, et où seule une communication locale est possible.

Processus de travail de l’étude

1. Résumé du contenu de la recherche

L’article aborde le problème COR sous deux scénarios : 1. Scénario 1 : le système externe est globalement accessible par tous les agents. Dans ce cas, les auteurs conçoivent une équation algébrique de Riccati augmentée (Augmented Algebraic Riccati Equation, AARE) et résolvent la matrice de gain de rétroaction via un algorithme d’apprentissage par renforcement sans modèle. 2. Scénario 2 : le système externe n’est accessible qu’à ses agents voisins. Dans ce cas, les chercheurs conçoivent des observateurs distribués pour chaque agent et proposent un protocole de contrôle adaptatif déclenché par événements basé sur ces observateurs.

À travers l’exploration de ces deux scénarios, les objectifs visés sont : - Diminuer la dépendance aux dynamiques des systèmes ; - Réduire la charge de communication et le coût de calcul grâce au contrôle déclenché par événements ; - Résoudre le problème COR dans un cadre distribué pour les graphes orientés.

2. Processus de recherche et détails de l’algorithme

Scénario 1 : Le système externe est globalement accessible

Dans ce cas, les chercheurs construisent un modèle interne (internal model) pour chaque agent et conçoivent un protocole de contrôle:

  1. Construction du modèle interne :

    • En intégrant l’état du système externe dans l’état du modèle interne, une matrice de gain de rétroaction intégrée est introduite.
  2. Résolution de la matrice de gain via apprentissage par renforcement :

    • Les auteurs définissent une équation algébrique de Riccati augmentée (AARE) dont la résolution fournit directement la matrice de gain.
    • Un algorithme d’apprentissage par renforcement sans modèle est introduit pour calculer cette matrice via des données d’entrée et de sortie en ligne.

Dans ce processus, les équations principales de l’algorithme incluent des formules itératives sur les matrices et une analyse de stabilité de Lyapunov. L’algorithme d’apprentissage par renforcement assure la convergence progressive de la matrice de gain vers la valeur cible grâce à un bruit de recherche et des règles de mise à jour judicieusement conçus.

Scénario 2 : Le système externe est localement accessible

Pour prendre en compte des scénarios plus complexes à accessibilité locale, les chercheurs introduisent un cadre de contrôle basé sur un mécanisme déclenché par événements entièrement distribué :

  1. Introduction d’un observateur distribué :

    • En utilisant l’état du système externe et les informations locales de voisinage, un observateur distribué est conçu pour estimer l’état du système externe.
  2. Mécanisme déclenché par événements :

    • Une fonction de déclenchement d’événement adaptative est créée pour activer de manière opportuniste les communications entre agents, réduisant considérablement la fréquence des échanges.
    • La règle de déclenchement est la suivante : dès que l’erreur d’observation atteint un seuil prédéterminé, une mise à jour de l’état est déclenchée.
  3. Protocole de contrôle entièrement distribué :

    • Sans dépendre de la matrice laplacienne globale, des gains adaptatifs et une nouvelle fonction de Lyapunov basée sur des graphes sont utilisés pour concevoir le protocole de contrôle.
  4. Preuves théoriques et validation de la robustesse des algorithmes :

    • Une analyse rigoureuse de la convergence des paramètres adaptatifs et de la fréquence de déclenchement est menée ;
    • La stabilité globale asymptotique du protocole de contrôle est démontrée à l’aide d’une équation de Lyapunov combinée.

3. Conception des expériences numériques

Les simulations sont réalisées sur un graphe de réseau orienté composé de 4 agents dont les paramètres dynamiques sont inconnus. Les chercheurs valident l’efficacité des méthodes proposées dans deux scénarios : 1. Simulation pour le Scénario 1 : - Grâce à l’algorithme 1, la matrice de gain de rétroaction obtenue se rapproche de la solution basée sur le modèle. - Un suivi rapide du signal de référence par les agents est réalisé.

  1. Simulation pour le Scénario 2 :
    • La performance du mécanisme déclenché par événements adaptatif est validée, montrant qu’il réduit significativement la fréquence de communication par rapport aux mécanismes traditionnels statiques.
    • L’intervalle moyen de déclenchement entre événements augmente de 1,5 à 3 fois par rapport à la solution statique.

Conclusion de la recherche et implications

1. Principales conclusions

Cet article représente une avancée significative dans la résolution des problèmes COR des systèmes multi-agents hétérogènes dans des graphes orientés. En construisant un modèle interne et en exploitant des algorithmes d’apprentissage par renforcement sans modèle, l’article propose des protocoles de contrôle distribués qui apprennent en ligne. L’intégration d’un mécanisme adaptatif déclenché par événements a permis d’éviter la dépendance à l’information globale et à la communication continue.

2. Valeur académique

La méthode introduite non seulement enrichit les résultats théoriques dans le domaine du contrôle distribué des systèmes multi-agents, mais elle fournit également des solutions applicables à des scénarios collaboratifs complexes. En pratique, cette approche réduit la dépendance aux informations dynamiques des modèles, ce qui la rend utilisable dans divers domaines tels que le contrôle en formation de robots, la coopération de drones et la régulation énergétique distribuée.

3. Points marquants des travaux

  • Abandon total de la dépendance aux modèles dynamiques : L’algorithme d’apprentissage utilise uniquement les données d’entrée et de sortie sans modèles précis.
  • Avancée dans la recherche sur les graphes orientés : Extension des contrôles distribués auparavant limités aux graphes non orientés.
  • Mécanisme innovant déclenché par événements : Le mécanisme adaptatif corrige efficacement les problèmes de gaspillage de ressources dû à une communication trop fréquente.

Perspectives

Les travaux futurs pourraient explorer les scénarios où la topologie de communication est dynamique, ou appliquer cette méthode à des systèmes multi-agents réels comme les groupes de robots ou les formations de véhicules, afin de valider sa praticabilité.