Apprentissage par Renforcement Multi-Objectifs Robuste en Tenant Compte des Incertitudes Environnementales
Introduction
Ces dernières années, l’apprentissage par renforcement (Reinforcement Learning, RL) a montré son efficacité dans la résolution de diverses tâches complexes. Cependant, de nombreux problèmes de décision et de contrôle du monde réel impliquent plusieurs objectifs conflictuels. L’importance relative de ces objectifs (préférences) doit être pondérée dans différents contextes. Bien que les solutions de Pareto optimal soient considérées comme idéales, l’incertitude environnementale (par exemple, les changements d’environnement ou le bruit de l’observation) peut amener l’agent à adopter une stratégie sous-optimale.
Pour répondre à ces défis, Xiangkun He, Jianye Hao et leurs collègues ont publié un article intitulé “Robust Multiobjective Reinforcement Learning Considering Environmental Uncertainties”, visant à étudier un nouveau paradigme d’optimisation multi-objectifs et proposant un apprentissage par renforcement multi-objectifs robuste tenant compte des incertitudes environnementales (Robust Multiobjective Reinforcement Learning, RMORL). Cet article a été publié dans le journal “IEEE Transactions on Neural Networks and Learning Systems”.
Source de l’article
Les auteurs de cet article incluent Xiangkun He, Jianye Hao, Xu Chen, Jun Wang, Xuewu Ji et Chen Lv, provenant respectivement de l’Université Technologique de Nanyang, de l’Université de Tianjin, de l’Université Renmin de Chine, du Collège Universitaire de Londres et de l’Université Tsinghua. L’article a été reçu le 3 février 2023, révisé le 7 août 2023 et le 7 novembre 2023, et finalement accepté le 1er mai 2024.
Processus de recherche
Aperçu du processus de recherche
- Modélisation des perturbations environnementales : Les perturbations environnementales sont modélisées comme un agent antagoniste dans l’ensemble de l’espace de préférences, en introduisant un jeu à somme nulle (Zero-Sum Game) dans le processus de décision de Markov multi-objectifs (Multiobjective Markov Decision Process, MOMDP).
- Techniques de défense antagoniste contre les interférences d’observation : Conception de techniques de défense antagonistes pour faire face aux interférences d’observation, garantissant que les variations de stratégie dues aux interférences sont limitées pour toute préférence donnée.
- Optimisation de la stratégie : Évaluation de l’efficacité des techniques proposées dans cinq environnements multi-objectifs avec des espaces d’action continus.
Détails des étapes expérimentales
- Modélisation de l’agent antagoniste des perturbations environnementales :
- Définir un modèle d’agent antagoniste des perturbations environnementales pour simuler des conditions environnementales sévères à travers l’ensemble de l’espace de préférences (c’est-à-dire le pire scénario).
- Conception des techniques de défense antagonistes :
- Formuler une technique de défense antagoniste basée sur des contraintes non linéaires. Cette technique vise à limiter les variations de stratégie dues aux attaques antagonistes sur les observations dans une certaine plage.
- Utiliser la théorie des dualités de Lagrange pour résoudre le problème d’optimisation contraint incluant des incertitudes d’observation antagonistes et les préférences de l’agent.
- Conception des algorithmes :
- Implémenter la méthode dans le cadre du Deep Deterministic Policy Gradient (DDPG), appelée Robust Multiobjective DDPG (RMO-DDPG).
Résultats de la recherche
Dans divers environnements expérimentaux, les principaux résultats sont les suivants :
- Vitesse d’apprentissage et performance finale : Comparé aux benchmarks classiques et à l’état de l’art, le RMO-DDPG affiche un indice de volume supérieur dans tous les environnements expérimentaux. En particulier, une amélioration significative de la performance par rapport aux modèles de base a été observée dans l’environnement MO-Hopper-v2.
- Robustesse de la stratégie : Dans les cinq environnements expérimentaux, le RMO-DDPG montre une robustesse supérieure de la stratégie par rapport aux méthodes de base. Par exemple, sur la tâche MO-Swimmer-v2, l’indice de robustesse du RMO-DDPG est considérablement amélioré par rapport aux méthodes de base.
- Coût calculatoire : La méthode RMO-DDPG a un coût calculatoire élevé car elle nécessite une optimisation supplémentaire du modèle antagoniste et des variables duales pendant l’entraînement.
- Front de Pareto : Le RMO-DDPG peut approcher un ensemble de solutions de Pareto plus large et trouver les fronts de Pareto convexes et concaves dans toutes les tâches.
Conclusion et valeur
L’algorithme RMORL proposé dans cette étude peut générer des stratégies de Pareto optimales robustes pour une préférence donnée. Cette recherche comble non seulement une lacune des méthodes RL multi-objectifs actuelles dans la gestion des incertitudes environnementales et des interférences d’observation, mais ses performances dans diverses tâches expérimentales montrent également son potentiel pour améliorer la qualité de Pareto et la robustesse de la stratégie.
Points forts de la recherche
- Originalité de la méthode : En introduisant un jeu à somme nulle dans le MOMDP, un nouveau paradigme d’optimisation multi-objectifs a été proposé, réalisant ainsi l’entraînement d’un modèle unique pour approcher des stratégies de Pareto robustes face aux perturbations environnementales et aux interférences d’observation.
- Techniques de défense antagonistes : Les techniques de défense antagonistes conçues peuvent efficacement limiter les variations de stratégie sous des interférences d’observation, renforçant ainsi la robustesse de la stratégie sous des préférences variées.
- Exhaustivité de l’expérimentation : L’efficacité des techniques proposées a été démontrée dans cinq environnements multi-objectifs, comparée à plusieurs benchmarks compétitifs pour prouver la supériorité de la méthode.
Contenu supplémentaire
Pour prouver la convergence de RMO-PI dans le processus de traitement multi-objectifs discuté dans l’article, des preuves théoriques détaillées sont fournies, ainsi qu’une explication sur la conception des fonctions de récompense multi-objectifs dans les environnements expérimentaux.