Modèle efficace de réseaux de neurones probabilistes pour l'apprentissage par renforcement basé sur modèle dans les USV
Nouvelle méthode de contrôle prédictif pour les véhicules de surface sans pilote (USV) : Cadre MBRL basé sur les réseaux de neurones probabilistes
Contexte académique
Les véhicules de surface sans pilote (Unmanned Surface Vehicles, USV) ont connu un développement rapide ces dernières années dans le domaine des sciences marines, étant largement utilisés dans des scénarios tels que le transport maritime, la surveillance environnementale et les secours en cas de catastrophe. Cependant, les systèmes de contrôle des USV font toujours face à de nombreux défis, en particulier leur capacité à faire face aux perturbations externes dans des environnements marins complexes. Bien que les méthodes traditionnelles d’apprentissage par renforcement sans modèle (Model-Free Reinforcement Learning, MFRL) aient montré de bonnes performances dans certaines tâches, elles dépendent fortement de grandes quantités de données et d’entraînement en simulation, et manquent de robustesse face aux incertitudes environnementales. Pour résoudre ces problèmes, les méthodes d’apprentissage par renforcement basé sur modèle (Model-Based Reinforcement Learning, MBRL) ont émergé. Le MBRL permet de s’adapter plus efficacement aux perturbations externes en apprenant simultanément un modèle de l’environnement et en optimisant les stratégies de contrôle.
Cependant, les méthodes MBRL dominantes actuelles reposent généralement sur des modèles de processus gaussiens (Gaussian Process, GP), dont la complexité calculatoire augmente de manière exponentielle avec la taille de l’échantillon, limitant leur application dans des scénarios complexes. Pour surmonter cette limitation, cet article propose une nouvelle méthode de contrôle prédictif basée sur des réseaux de neurones probabilistes (Probabilistic Neural Networks Model Predictive Control, PNMPC), visant à modéliser la dynamique des USV sous un angle probabiliste tout en réduisant la complexité calculatoire et en améliorant les performances de contrôle.
Source de l’article
Cet article est co-écrit par Wenjun Huang, Yunduan Cui, Huiyun Li et Xinyu Wu, respectivement affiliés à l’Université de l’Académie chinoise des sciences et à l’Institut des technologies avancées de Shenzhen de l’Académie chinoise des sciences. L’article est publié dans IEEE Transactions on Automation Science and Engineering et sera officiellement publié en 2025. La recherche est soutenue par la Fondation nationale des sciences naturelles de Chine et le Fonds de recherche et développement de Shenzhen.
Processus de recherche
1. Définition du problème et construction du modèle
L’objectif de cette recherche est de concevoir un cadre MBRL capable de contrôler efficacement les USV dans des environnements marins complexes. Tout d’abord, les auteurs modélisent la dynamique des USV comme un processus de décision markovien (Markov Decision Process, MDP). L’espace d’état des USV inclut des variables telles que la position, la direction, la vitesse, l’angle du gouvernail et la commande de l’accélérateur, tandis que l’espace d’action comprend les commandes du gouvernail et de l’accélérateur. Grâce à cette modélisation, les auteurs peuvent mieux capturer le comportement dynamique des USV sous l’influence de perturbations externes.
2. Conception du modèle de réseaux de neurones probabilistes
Pour résoudre le problème de la complexité calculatoire élevée des modèles GP, les auteurs proposent un modèle de réseaux de neurones probabilistes. Ce modèle utilise l’abandon aléatoire (Dropout) et l’intégration de réseaux de neurones (Ensembles) pour capturer l’incertitude de la dynamique des USV. Concrètement, le modèle prédit l’état suivant des USV sous un angle probabiliste à l’aide de plusieurs réseaux de neurones indépendants et d’unités d’abandon aléatoires. Pour améliorer la précision de la prédiction, le modèle utilise une fonction de perte dynamique en deux étapes consécutives pendant l’entraînement, ce qui permet de mieux capturer les caractéristiques temporelles de la dynamique des USV.
3. Stratégie de contrôle prédictif basé sur modèle
Basée sur ce modèle de réseaux de neurones probabilistes, les auteurs conçoivent une stratégie de contrôle prédictif (Model Predictive Control, MPC). Cette stratégie optimise une séquence d’actions pour maximiser les récompenses futures tout en tenant compte de l’incertitude de la dynamique des USV. Contrairement aux méthodes GP-MPC traditionnelles, le PNMPC propage l’incertitude à travers l’intégration de réseaux de neurones et des unités d’abandon aléatoires, tout en évitant une amplification excessive des erreurs dans les prédictions à plusieurs étapes.
4. Expériences et évaluation
Pour valider l’efficacité du PNMPC, les auteurs ont mené des expériences dans un environnement de simulation basé sur des données réelles d’USV, incluant des tâches de maintien de position et de suivi de plusieurs cibles. Les expériences ont été configurées avec trois niveaux d’intensité de perturbations externes pour simuler un environnement marin complexe. Les résultats montrent que le PNMPC surpasse les modèles GP traditionnels et les méthodes existantes tant en précision du modèle qu’en performances de contrôle, tout en maintenant une complexité calculatoire indépendante de la taille de l’échantillon, ce qui le rend adapté à des applications à grande échelle.
Principaux résultats
1. Apprentissage du modèle et précision de la prédiction
Les résultats expérimentaux montrent que le PNMPC offre une plus grande précision et une variance d’erreur de prédiction plus faible lors de la prédiction de l’état suivant des USV. Comparé aux modèles GP traditionnels et aux méthodes basées sur les réseaux de neurones existantes, le PNMPC capture mieux les caractéristiques dynamiques des USV, en particulier dans des environnements à forte perturbation. De plus, l’erreur de prédiction du modèle PNMPC diminue de manière significative avec l’augmentation de la taille de l’échantillon, démontrant ainsi une bonne capacité de généralisation.
2. Performances de contrôle
Dans la tâche de maintien de position, le PNMPC montre un décalage de position moyen et un taux de réussite des tâches supérieurs aux autres méthodes de référence. Dans la tâche de suivi de plusieurs cibles, le PNMPC montre également des avantages significatifs en termes de distance de suivi et de taux de réussite des tâches. Même sous le niveau de perturbation le plus élevé, le PNMPC maintient une stabilité de contrôle élevée, tandis que les performances des autres méthodes se détériorent rapidement.
3. Efficacité calculatoire
Comme la complexité calculatoire du PNMPC est indépendante de la taille de l’échantillon, il peut fonctionner efficacement sur de grands ensembles de données. En revanche, les méthodes basées sur des modèles GP voient leur temps d’optimisation augmenter de manière significative sur de grands échantillons, rendant difficile leur utilisation en temps réel.
Conclusion
La méthode PNMPC proposée dans cet article, en combinant les réseaux de neurones probabilistes et les stratégies de contrôle prédictif basé sur modèle, résout efficacement les problèmes de complexité calculatoire et de robustesse des méthodes MBRL traditionnelles dans le contrôle des USV. Les résultats expérimentaux montrent que le PNMPC surpasse les méthodes existantes en termes de précision du modèle, de performances de contrôle et d’efficacité calculatoire, offrant ainsi une solution efficace pour le contrôle des USV dans des environnements marins complexes.
Points forts de la recherche
- Modèle innovant de réseaux de neurones probabilistes : Grâce à l’abandon aléatoire et à l’intégration de réseaux de neurones, le PNMPC peut capturer efficacement la dynamique des USV sous un angle probabiliste, évitant la complexité calculatoire élevée des modèles GP traditionnels.
- Mécanisme efficace de propagation de l’incertitude : Le PNMPC combine les avantages de Deep PILCO et de PETS, proposant un nouveau mécanisme de propagation de l’incertitude qui améliore la stabilité des prédictions à plusieurs étapes.
- Complexité calculatoire indépendante de la taille de l’échantillon : La complexité calculatoire du PNMPC est indépendante de la taille de l’échantillon, le rendant adapté à des applications à grande échelle.
- Performances de contrôle robustes : Dans des environnements à forte perturbation, le PNMPC montre des avantages significatifs en matière de contrôle et de capacité de généralisation.
Signification et valeur
La proposition du PNMPC offre non seulement de nouvelles théories et méthodes pour le domaine du contrôle des USV, mais possède également un large potentiel d’application. Sa capacité efficace de modélisation et d’optimisation peut être étendue au contrôle d’autres systèmes autonomes (comme les drones et les véhicules sans pilote), fournissant un soutien technique pour le contrôle autonome dans des environnements complexes. Par ailleurs, la caractéristique de complexité calculatoire indépendante du PNMPC ouvre la voie à des applications sur des ensembles de données de grande taille, ce qui revêt une importance pratique significative en ingénierie.