Conception adaptative de critique stable avec escompte pour les jeux à somme nulle avec vérifications d'application

Conception de jugement adaptatif basée sur l’itération de valeur discountée dans les jeux à somme nulle : application et validation

Contexte de recherche

Dans le domaine du contrôle, le contrôle optimal (Optimal Control) est un axe de recherche central visant à concevoir et analyser des systèmes de contrôle pour optimiser les performances du système. Avec l’augmentation de la complexité des systèmes, les méthodes traditionnelles de contrôle optimal basées sur l’équation de Hamilton-Jacobi-Bellman (HJB) sont confrontées au problème de la malédiction de la dimension (Curse of Dimensionality). Pour relever ce défi, les chercheurs ont proposé des méthodes de programmation dynamique adaptative (Adaptive Dynamic Programming, ADP), combinées à des techniques d’apprentissage par renforcement (Reinforcement Learning) et d’approximation de fonction (Function Approximation), améliorant ainsi significativement la capacité de contrôle des systèmes complexes.

Les jeux à somme nulle (Zero-Sum Games) constituent un volet important de la recherche en contrôle optimal, souvent utilisés pour traiter des problèmes de systèmes dynamiques avec des propriétés antagonistes. L’objectif central des jeux à somme nulle est d’optimiser les performances du système en concevant des paires de stratégies tout en supprimant l’impact négatif des perturbations antagonistes. Cependant, les méthodes traditionnelles d’itération de valeur (Value Iteration) ne garantissent pas l’acceptabilité des paires de stratégies au cours du processus itératif, et l’introduction d’un facteur d’actualisation (Discount Factor) peut entraîner des problèmes de stabilité du système, ce qui représente un défi majeur dans les recherches actuelles.

Pour résoudre ce problème, cet article propose une méthode de conception de jugement adaptatif (Adaptive Critic Design, ACD) basée sur l’itération de valeur discountée (Discounted Value Iteration), visant à résoudre les problèmes de contrôle optimal des jeux à somme nulle en temps discret et à assurer la stabilité asymptotique du système. Les innovations de cet article sont les suivantes : 1) proposition d’un algorithme d’itération de valeur discountée applicable aux systèmes linéaires et non linéaires en temps discret ; 2) analyse approfondie de l’impact du facteur d’actualisation sur la stabilité du système ; 3) validation de l’efficacité de la méthode proposée grâce à des applications pratiques sur un système électrique et un système bille-poutre.

Équipe de recherche et informations de publication

Cet article a été rédigé par Jin Ren, Ding Wang, Menghua Li et Junfei Qiao de l’École des sciences et technologies de l’information de l’Université de technologie de Pékin, et publié en 2025 dans la revue IEEE Transactions on Automation Science and Engineering. La recherche a été soutenue par la Fondation nationale des sciences naturelles de Chine, des projets clés nationaux de recherche et développement, et la Fondation des sciences naturelles de Pékin.

Méthodologie et détails techniques

Description du problème

Le modèle de système non linéaire en temps discret considéré dans cet article est le suivant :

[ x_{k+1} = f(x_k, u_k, \omega_k), \quad k \in \mathbb{N} ]

où ( x_k ) est l’état du système, ( u_k ) est l’entrée de contrôle, et ( \omega_k ) est l’entrée de perturbation. L’objectif du système est de concevoir une paire de stratégies de contrôle ( (u_k, \omega_k) ) pour que le système présente des performances optimales sous l’effet des perturbations antagonistes.

Algorithme d’itération de valeur discountée

Pour résoudre les problèmes de jeux à somme nulle, cet article propose une méthode de conception de jugement adaptatif basée sur l’itération de valeur discountée. Tout d’abord, la fonction de coût initiale ( v_0(x_k) ) et la paire de stratégies initiales ( (u_0(x_k), \omega_0(x_k)) ) sont définies. Ensuite, l’optimisation est réalisée par itération selon les étapes suivantes :

  1. Évaluation de la stratégie : Mise à jour de la fonction de coût ( v_{i+1}(x_k) ) en fonction de la paire de stratégies actuelles.
  2. Amélioration de la stratégie : Optimisation des stratégies de contrôle ( u_i(x_k) ) et de perturbation ( \omega_i(x_k) ) en fonction de la fonction de coût mise à jour.

Grâce à des itérations continues, la paire de stratégies converge progressivement, permettant ainsi d’approximer la paire de stratégies optimales ( (u^(x_k), \omega^(x_k)) ).

Analyse de la stabilité

Dans les jeux à somme nulle, le choix du facteur d’actualisation a un impact significatif sur la stabilité du système. Par une analyse théorique, cet article propose une plage de sélection pour le facteur d’actualisation ainsi que les conditions pour garantir la stabilité du système. Plus précisément, lorsque la condition suivante est satisfaite, le système est asymptotiquement stable sous l’action de la paire de stratégies :

[ \gamma \in (\max{0, \gamma_{\min}}, 1] ]

où ( \gamma_{\min} = 1 - u(x_k, u_i(x_k), \omega_i(x_k)) / v_i(x_k) ).

Traitement particulier des systèmes linéaires

Pour les systèmes linéaires, cet article explore davantage l’algorithme d’itération de valeur discountée et son analyse de stabilité. Grâce à l’équation de Riccati algébrique de jeu (Game Algebraic Riccati Equation, GARE), cet article propose des méthodes d’évaluation et d’amélioration des stratégies pour les systèmes linéaires, ainsi que des conditions pour le choix du facteur d’actualisation afin de garantir la stabilité du système.

Résultats expérimentaux et validation

Système électrique

Tout d’abord, cet article utilise un système électrique comme sujet d’expérimentation pour valider l’efficacité de la méthode proposée dans les systèmes linéaires. Les résultats expérimentaux montrent qu’en utilisant l’algorithme d’itération de valeur discountée, l’état du système converge progressivement vers un point d’équilibre, et les fonctions de coût itératives ainsi que les paires de stratégies convergent vers des valeurs optimales.

Système bille-poutre

Ensuite, cet article utilise un système bille-poutre comme sujet d’expérimentation pour les systèmes non linéaires. Les expériences de validation confirment que la méthode proposée peut garantir la stabilité asymptotique du système, et que les paires de stratégies obtenues sont acceptables.

Conclusion et contributions

Cet article propose une méthode de conception de jugement adaptatif basée sur l’itération de valeur discountée, résolvant efficacement les problèmes de contrôle optimal des jeux à somme nulle en temps discret et garantissant la stabilité asymptotique du système. Grâce à une analyse théorique et à des validations expérimentales, cet article fournit des bases importantes pour la sélection du facteur d’actualisation et la garantie de la stabilité du système, offrant ainsi de nouvelles pistes pour la conception optimale de systèmes de contrôle complexes.

Points forts de la recherche

  1. Innovation : Propose un algorithme d’itération de valeur discountée applicable aux systèmes linéaires et non linéaires.
  2. Contribution théorique : Analyse en profondeur l’impact du facteur d’actualisation sur la stabilité du système et propose des conditions pour sa sélection.
  3. Valeur pratique : Valide l’efficacité et l’utilité de la méthode proposée grâce à des expériences sur un système électrique et un système bille-poutre.

Perspectives futures

Les recherches futures exploreront comment déterminer la plage appropriée du facteur d’actualisation et garantir la stabilité asymptotique du système lorsque le modèle du système est inconnu. De plus, la méthode proposée dans cet article peut être étendue à d’autres systèmes de contrôle complexes, tels que les réseaux électriques intelligents, le contrôle des robots, et d’autres domaines, offrant ainsi des perspectives d’application étendues.