Contrôle non linéaire optimisé par apprentissage par renforcement à temps fixe adaptatif composite et son application au pilote automatique de navire intelligent
Étude sur le contrôle optimisé de l’apprentissage par renforcement en temps fixe pour les systèmes non linéaires appliqué au pilote automatique des navires intelligents
Ces dernières années, la technologie de conduite autonome intelligente est devenue un sujet brûlant dans le domaine de la commande automatisée. Dans les systèmes non linéaires complexes, la conception d’une stratégie de contrôle optimisé, en particulier pour atteindre la stabilité et l’optimisation des performances du système dans un temps fixe, constitue un défi majeur pour les ingénieurs et les chercheurs en contrôle. Cependant, la théorie actuelle du contrôle en temps fixe néglige souvent les questions d’efficacité et d’équilibre des ressources lors de l’obtention de la convergence de l’état du système, ce qui peut engendrer des phénomènes de surcompensation ou de sous-compensation, augmentant ainsi l’erreur de régime permanent. De plus, les études sur la minimisation de l’erreur d’estimation de l’incertitude non linéaire dans un délai prescrit restent limitées. Ce travail vise donc à proposer une solution adaptative composite pour le contrôle optimisé basé sur l’apprentissage par renforcement en temps fixe et à répondre à cette problématique cruciale.
Contexte et objectif de l’étude
Depuis son introduction, la théorie du contrôle en temps fixe, qui offre une convergence indépendante des conditions initiales, a attiré une large attention. Par rapport aux approches de contrôle en temps fini, le contrôle en temps fixe réduit les contraintes sur les conditions initiales. Cependant, même si des recherches précédentes ont abordé le contrôle optimisé des systèmes non linéaires dans un temps fini, elles se sont principalement concentrées sur des systèmes non linéaires affines et non sur des systèmes strictement rétrociés (strict-feedback systems). De plus, bien que les réseaux neuronaux (Neural Networks, NNs) soient fréquemment utilisés pour leur solide capacité d’apprentissage et d’approximation dans la gestion des incertitudes non linéaires, l’amélioration de leur précision d’estimation et la réduction de l’erreur systémique demeurent des défis cruciaux en pratique.
Face à ces défis, cette étude a été menée par une équipe de chercheurs, comprenant Siwen Liu et Yi Zuo du Collège de Navigation de l’Université Maritime de Dalian, Tieshan Li et Xiaoyang Gao de l’École d’Ingénierie Automatique de l’Université des Sciences Électroniques et des Technologies de Chine, Huanqing Wang du Collège des Sciences Mathématiques de l’Université de Bohai, ainsi que Yang Xiao du Département d’Informatique de l’Université d’Alabama, aux États-Unis. L’article, publié dans l’édition de janvier 2025 du IEEE Transactions on Artificial Intelligence, a été soutenu financièrement par la Fondation Nationale des Sciences Naturelles de Chine (projets 51939001, 61976033, 62173046 et 52301418).
Processus et méthodes de recherche
Conception du processus de recherche
En se basant sur des systèmes strictement rétrociés, cette étude propose une stratégie adaptative composite de contrôle optimisé basé sur l’apprentissage par renforcement en temps fixe pour gérer les incertitudes non linéaires du système. Les principales étapes de recherche sont les suivantes :
Modélisation du problème :
Les systèmes non linéaires sont modélisés dans une structure strictement rétrociée, avec l’équation d’état suivante :
[ \dot{x}i(t) = x{i+1}(t) + f_i(\overline{x}_i(t)),\quad y(t) = x_1(t) ]
où l’état du système est ( x \in \mathbb{R}^n ). Les auteurs définissent une erreur de suivi ( z_i ) et visent à garantir la convergence de cette erreur dans un temps fixe.Construction du modèle d’approximation :
Un réseau neuronal à fonctions radiales de base (Radial Basis Function Neural Networks, RBFNNs) est utilisé pour modéliser les fonctions cibles ( f_i ) incertaines, approximées globalement par :
[ f(x) \approx W^T S(x) + \epsilon ]
où ( W ) est la matrice de poids à entraîner, ( S(x) ) est une fonction de base gaussienne, et ( \epsilon ) représente une erreur théoriquement bornée.Introduction d’un système d’estimation lisse en temps fixe :
Pour améliorer la performance des réseaux neuronaux, un nouveau mécanisme adaptatif composite est introduit, y compris des paramètres de mise à jour des poids adaptatifs ( \dot{\hat{\theta}}_i ) et une prédiction d’erreur de suivi. Ce mécanisme améliore considérablement la stabilité et la précision des estimations des RBFNN.Conception d’une stratégie optimisée basée sur l’apprentissage par renforcement :
Une architecture critic-actor est adoptée dans un cadre d’apprentissage par renforcement (RL). La partie Critic approxime l’optimisation de l’équation d’Hamilton-Jacobi-Bellman (HJB), tandis que la partie Actor génère les lois de commande optimisées. Une actualisation des poids basée sur des événements et des mécanismes de rétroaction permet un meilleur équilibre entre les performances et les ressources de calcul.Analyse de la stabilité des algorithmes :
En utilisant des fonctions de Lyapunov, les auteurs effectuent une analyse rigoureuse pour prouver que l’erreur se contracte dans une région proche de zéro dans un temps fixe.Validation par simulation :
Enfin, la méthode proposée est vérifiée à travers une expérimentation numérique sur le problème de pilotage autonome de navires intelligents.
Points saillants des méthodes
a) Un nouveau système d’estimation lisse en temps fixe améliore l’efficacité de l’approximation ;
b) Des lois d’actualisation robustes sont développées dans l’architecture critic-actor pour optimiser les poids en temps fixe ;
c) Le mécanisme introduit évite les problèmes de singularité associés à la dérivation des contrôleurs indirects ;
d) La méthode peut être généralisée pour résoudre les problèmes de contrôle en temps fixe pour des systèmes multi-agents.
Principaux résultats et analyses
Résultats de modélisation et d’optimisation
L’analyse de la stabilité des équations dynamiques d’erreur de suivi dans un temps fixe montre :
- Pour la fonction de performance ( J(x(0), u(x(0))) ), une solution unique ( u^*(x) ) au contrôle optimisé est obtenue via l’équation d’Hamilton-Jacobi-Bellman ;
- La démonstration basée sur les fonctions de Lyapunov établit clairement que les variables d’erreur ( z_i ), ( \chi_i ), etc., convergent dans un temps fixe ( T_s ) vers une région contrôlable proche de l’origine.
Expérimentations numériques
Dans la simulation de pilotage autonome de navires intelligents, la méthode proposée contrôle efficacement l’angle de cap (heading angle) du navire. Les résultats incluent :
- Courbes de réponse du système (comme ( x_1(t) ) et la trajectoire de référence ( y_r(t) )) : L’erreur diminue rapidement à zéro, avec des performances de suivi exceptionnelles ;
- Convergence de la fonction de performance : Les fonctions coût ( c_1 ) et ( c_2 ) montrent une convergence rapide, prouvant l’efficacité de l’utilisation des ressources.
Conclusions et contributions
Importance de l’étude
Au niveau théorique :
Cette recherche comble une lacune dans l’optimisation adaptative composite pour les théories de contrôle en temps fixe, fournissant des références importantes pour le contrôle non linéaire.Au niveau pratique :
La méthode proposée est prometteuse non seulement pour les navires intelligents, mais également pour des applications telles que la coordination multi-robots et les véhicules autonomes.
Points marquants
- Le système proposé d’estimation lisse en temps fixe réduit significativement l’erreur d’approximation des RBFNN, fournissant un outil performant pour d’autres domaines ;
- La combinaison ingénieuse de l’apprentissage par renforcement et de stratégies de contrôle composite démontre sa fiabilité et son applicabilité face aux incertitudes des systèmes non linéaires ;
- Une rigueur mathématique renforce la robustesse et le champ d’application de cette méthode.
Cette recherche démontre une immense valeur académique dans le domaine du contrôle autonome intelligent tout en ouvrant des perspectives pour des applications pratiques à grande échelle.