Contrôle optimal des systèmes de saut markovien stochastiques avec bruits de Wiener et de Poisson : deux approches d'apprentissage par renforcement

Contrôle optimal des systèmes stochastiques à saut marovien avec des bruits de Wiener et de Poisson : deux méthodes d’apprentissage par renforcement

Contexte académique

Dans la théorie moderne du contrôle, le contrôle optimal est un domaine de recherche essentiel, avec pour objectif de concevoir une stratégie de contrôle optimale qui minimise une fonction de coût donnée pour des systèmes dynamiques soumis à diverses contraintes. Pour les systèmes stochastiques, les méthodes classiques de contrôle optimal nécessitent généralement des informations complètes sur le modèle du système, ce qui limite leur application pratique. Récemment, l’apprentissage par renforcement (Reinforcement Learning, RL), en tant que méthode indépendante du modèle, est intégré pour résoudre les problèmes de contrôle optimal. RL, qui apprend directement à partir de données, peut obtenir des fonctions de valeur optimales et des politiques optimales, et la méthode d’itération de politique (Policy Iteration) permet d’améliorer les performances en continu.

Les systèmes stochastiques à saut markovien (Stochastic Markovian Jump Systems, SMJS) constituent un modèle stochastique important, utilisé largement dans les domaines financier, de l’ingénierie, entre autres. Cependant, ces systèmes sont souvent influencés par divers bruits, tels que les bruits de Wiener et de Poisson. Les bruits de Wiener modélisent des perturbations continues alors que les bruits de Poisson reflètent des événements discrets soudains (par exemple, des catastrophes naturelles, des pannes de machines). En raison de la complexité de ces bruits, les méthodes classiques de contrôle sont insuffisantes. Il devient donc crucial d’étudier la conception de stratégies de contrôle optimales lorsqu’un système subit des influences combinées de bruits de Wiener et de Poisson.

Cet article, coécrit par Zhiguo Yan, Tingkun Sun et Guolin Hu, a été publié dans le numéro de décembre 2024 de la revue IEEE Transactions on Artificial Intelligence. L’article propose deux nouveaux algorithmes d’itération de politique destinés à résoudre le problème de contrôle optimal des SMJS affectés par des bruits de Wiener et de Poisson, et valide l’efficacité et la convergence des algorithmes via des exemples numériques.

Contenu de la recherche

Démarche de recherche

Cet article suit les étapes principales suivantes :

  1. Définition du problème et modélisation du système : Les auteurs définissent un SMJS avec des bruits de Wiener et de Poisson et présentent ses équations d’état et sa fonction de coût. L’équation d’état du système est la suivante :

[ dx(t) = [A_1(\delta_t)x(t) + B_1(\delta_t)u(t)]dt + [A_2(\delta_t)x(t) + B_2(\delta_t)u(t)]dw(t) + [A_3(\delta_t)x(t) + B_3(\delta_t)u(t)]dp(t) ]

où (x(t)) est l’état du système, (u(t)) l’entrée de commande, (w(t)) le processus de Wiener, (p(t)) le processus de Poisson, et (\delta_t) le processus de saut Markovien.

  1. Conception des algorithmes d’itération de politique : L’article propose deux nouveaux algorithmes d’itération de politique, basés respectivement sur l’apprentissage par renforcement intégral (Integral Reinforcement Learning, IRL) et la technique de transformation des sous-systèmes (Subsystems Transformation Technique, ST). Ces algorithmes visent à approcher progressivement la solution optimale en mettant à jour les stratégies et les fonctions de valeur, évitant ainsi de résoudre directement des équations de Riccati algébriques couplées stochastiques (Stochastic Coupled Algebraic Riccati Equations, SCARE).

    • Algorithme 1 : Une méthode basée sur l’intégration de l’approche IRL et de la technique ST. Cet algorithme est prouvé convergent de manière rigoureuse.
    • Algorithme 2 : Une version améliorée, indépendante de l’intensité de saut de Poisson (\lambda), avec une amélioration des politiques plus flexible utilisant uniquement les informations de trajectoire de l’état.
  2. Expérimentation numérique et validation : À travers des simulations numériques, l’article teste l’efficacité et la convergence des algorithmes proposés. Les résultats montrent que les deux algorithmes permettent de résoudre efficacement les problèmes de contrôle optimal des SMJS et montrent une robustesse remarquable aux variations de l’intensité du saut de Poisson (\lambda).

Principaux résultats

  1. Résultats de l’algorithme 1 : Les résultats obtenus montrent que l’algorithme 1 permet d’approcher efficacement la solution optimale avec une bonne convergence, même pour différentes valeurs de (\lambda).

  2. Résultats de l’algorithme 2 : L’algorithme 2 présente également une convergence satisfaisante tout en étant indépendant des variations de (\lambda). Les résultats confirment que cet algorithme peut résoudre efficacement des problèmes de contrôle optimal stochastiques.

  3. Influence de (\lambda) : L’article explore comment (\lambda) influence la précision de la convergence et l’erreur des équations des algorithmes. Il est observé que, bien qu’une augmentation de (\lambda) puisse réduire légèrement la précision de convergence, les algorithmes conservent leur efficacité dans un large intervalle de valeurs de (\lambda).

Conclusion

L’article examine le problème de contrôle optimal à horizon infini pour les SMJS soumis à des bruits de Wiener et de Poisson. Deux nouveaux algorithmes d’itération de politique sont conçus pour obtenir la solution optimale sans résoudre directement le système SCARE. Les simulations montrent que ces algorithmes convergent efficacement et offrent des solutions robustes.

Points forts de la recherche

  1. Modélisation avancée des bruits : Intégration simultanée des bruits de Wiener et de Poisson dans le cadre des SMJS, répondant à des scénarios réalistes complexes.

  2. Indépendance aux informations complètes : Les algorithmes proposés fonctionnent sans dépendre de connaissances complètes du modèle du système, ce qui renforce leur applicabilité.

  3. Flexibilité algorithmique : L’amélioration flexible des politiques dans l’algorithme 2 en fait une solution versatile adaptée à divers problèmes.

Signification et valeur

Cette recherche combine des avancées théoriques et des applications pratiques potentielles. D’un point de vue théorique, les algorithmes conçus ouvrent la voie à de nouvelles solutions pour des environnements bruités complexes. D’un point de vue pratique, ils offrent des outils précieux pour des domaines tels que la gestion des risques financiers ou le diagnostic des pannes dans des systèmes industriels.

Grâce à des approches méthodiques et des validations rigoureuses, cet article constitue une étape importante vers la résolution de problèmes complexes de contrôle optimal stochastique intégrant des bruits de Wiener et de Poisson.