Suivi optimal avancé intégrant une technique de critique neuronale pour les jeux à somme nulle à contraintes asymétriques

Rapport académique : Contrôle de suivi optimal avancé intégrant une technique de critique neuronale pour les jeux à somme nulle contraints asymétriques

Contexte et problématique de recherche

Dans le domaine moderne du contrôle, la théorie des jeux est un modèle mathématique qui étudie la concurrence et la coopération entre des décideurs intelligents, impliquant au moins deux joueurs dans des décisions interactives. Ces dernières années, les jeux différentiels ont suscité un intérêt croissant dans le domaine du contrôle. Lorsqu’on aborde les problèmes de contrôle optimal de systèmes complexes perturbés, on les considère généralement comme des jeux à somme nulle (Zero-Sum Game, ZSG). Si le problème de contrôle d’un système implique plusieurs stratégies de contrôle et aucune perturbation, on parle alors de jeu non soumettant (Non-ZSG). Cependant, en raison des perturbations fréquentes dans les systèmes réels, il est crucial de prendre en compte les ZSG pour atténuer l’impact des perturbations sur les performances du système.

En particulier dans les systèmes non linéaires en temps continu (Continuous-Time, CT), bien que la méthode de programmation dynamique traditionnelle soit très précieuse, elle est souvent difficile à appliquer pour résoudre les problèmes de contrôle optimal non linéaire en raison de la malédiction de la dimensionnalité. Pour résoudre ce problème, Werbos a proposé en 1974 la programmation dynamique adaptative (Adaptive Dynamic Programming, ADP), basée sur la programmation dynamique, les réseaux neuronaux et l’apprentissage par renforcement. Il s’agit d’un outil d’optimisation intelligent, efficace et puissant. Par conséquent, cet article utilise la technique de la critique neuronale (ADP) pour étudier le problème de suivi des jeux à somme nulle en conditions asymétriques pour les systèmes non linéaires CT.

Source et informations des auteurs de l’article

Cette étude intitulée « Advanced optimal tracking integrating a neural critic technique for asymmetric constrained zero-sum games » a été rédigée par Menghua Li, Ding Wang, Jin Ren et Junfei Qiao de la Faculté de technologie de l’information de l’Université de Pékin. Elle est également affiliée au Laboratoire de systèmes intelligents et de calcul de Pékin, à l’Institut d’intelligence artificielle de Pékin et au Laboratoire de protection environnementale intelligente de Pékin. L’article sera publié en ligne dans le journal Neural Networks le 15 mai 2024.

Processus de travail

Tout d’abord, cette recherche propose un algorithme amélioré pour résoudre le problème de suivi dans les jeux à somme nulle multi-joueurs non linéaires CT. Elle conçoit une nouvelle fonction non quadratique pour résoudre les problèmes de contraintes asymétriques, réduisant ainsi les exigences strictes sur la matrice de contrôle. Elle dérive également le contrôle optimal, la pire perturbation ainsi que les équations de suivi Hamilton-Jacobi-Isaacs (HJI). Ensuite, un réseau d’évaluation neuronale est construit pour estimer la fonction de coût optimal, permettant ainsi d’obtenir les approximations du contrôle optimal et de la pire perturbation. Enfin, l’analyse de la stabilité des erreurs de suivi et de l’estimation des poids du réseau de critique est réalisée en utilisant la méthode de Lyapunov.

Étapes de la recherche

  1. Construction du modèle de système non linéaire : Définir les variables d’état du système, les entrées de contrôle et les perturbations externes. Définir la trajectoire de référence générée par le système de référence et décrire la dynamique de l’erreur de suivi du système via un vecteur d’erreur de suivi.

  2. Résolution des équations HJI : Dériver les équations HJI de suivi du système en utilisant le principe d’optimalité de Bellman. Obtenir le contrôle optimal et la pire perturbation via le principe de station.

  3. Implémentation du contrôle de suivi avec la critique neuronale : En raison de la difficulté de résoudre les équations HJI en haute dimension, l’article opte pour l’utilisation de la technique de critique neuronale. Établir un réseau d’évaluation pour obtenir des approximations du contrôle optimal et de la pire perturbation via une règle de mise à jour des poids.

  4. Analyse de stabilité : Utiliser la méthode des candidats de fonction de Lyapunov pour prouver que le système est stable en termes de bounding uni au final (UUB).

  5. Vérification par des exemples de simulation : Valider l’efficacité de la stratégie de contrôle de suivi proposée à travers des simulations sur un système de balancier inversé et un système non linéaire à quatre joueurs.

Résultats de la recherche

Après l’entraînement des poids et les vérifications par simulation, cette recherche a obtenu une série de résultats importants :

  1. Convergence des poids : L’entraînement du réseau d’évaluation montre une convergence des poids en un temps donné, garantissant que le contrôle optimal approximatif reflète correctement l’état du système.

  2. Convergence des erreurs de suivi : Les expériences de simulation montrent que l’erreur de suivi converge rapidement à zéro, validant ainsi l’efficacité de la méthode proposée dans différents environnements perturbés.

  3. Capacité de résistance aux perturbations : Le système montre une forte capacité à résister aux perturbations, car même après l’introduction de signaux de perturbation, l’erreur de suivi revient rapidement à zéro.

Conclusion et implications

Cet article propose une méthode efficace pour résoudre le problème de suivi dans les jeux à somme nulle aux contraintes asymétriques pour les systèmes non linéaires CT en utilisant la technique de critique neuronale. La méthode relâche les exigences strictes sur la matrice de contrôle, étendant ainsi l’application de l’algorithme, et permet un contrôle efficace même sans nécessité que la trajectoire de référence converge finalement à zéro. La recherche non seulement propose une nouvelle méthode théorique mais contribue également à une gamme plus large d’applications pratiques.

Points forts de la recherche

  1. Algorithme innovant : L’algorithme proposé relâche les restrictions sur la matrice de contrôle comparé aux approches antérieures, permettant une efficacité de fonctionnement dans un contexte d’application plus large.

  2. Application de la technique de critique neuronale : La critique neuronale est utilisée pour approximer le contrôle optimal, ce qui permet de mieux gérer la malédiction de la dimensionnalité et de réaliser des stratégies de contrôle efficaces.

  3. Validation par plusieurs scénarios d’application : Les simulations sur le système de balancier inversé et le système à quatre joueurs montrent l’adaptabilité et l’efficacité étendues de l’algorithme proposé.