NPE-DRL : Approche d'évitement d'obstacles contraints à la perception avec apprentissage par renforcement guidé par une politique non experte
Recherche sur l’amélioration des capacités d’évitement d’obstacles de drones dans des environnements à perception visuelle limitée basée sur l’apprentissage par renforcement guidé par des stratégies non expertes
Ces dernières années, les drones (Unmanned Aerial Vehicle, UAV) ont été largement utilisés dans des domaines civils tels que la livraison de colis, l’évaluation des risques et les opérations de sauvetage d’urgence grâce à leur excellente maniabilité et leur polyvalence. Cependant, à mesure que la complexité, la portée et la durée des missions de drones augmentent, la difficulté de leur navigation autonome croît considérablement, notamment pour éviter les obstacles dans des environnements encombrés et hautement incertains. Pourtant, les méthodes traditionnelles de navigation globale reposant souvent sur des informations globales se révèlent inadaptées pour traiter des scénarios d’obstacles dans des conditions de perception visuelle limitée. Cette étude a donc pour objectif de résoudre les problèmes d’évitement d’obstacles dans ces scénarios et d’améliorer la capacité des drones à naviguer en temps réel.
En outre, bien que les algorithmes d’évitement d’obstacles basés sur l’apprentissage par renforcement profond (Deep Reinforcement Learning, DRL) se distinguent par leur traitement de bout en bout, réduisant ainsi la complexité computationnelle tout en augmentant la flexibilité et l’évolutivité, leur efficacité d’échantillonnage reste faible. Ils nécessitent un grand nombre d’itérations pour que les politiques convergent. Par ailleurs, les méthodes d’apprentissage par imitation existantes à haut rendement qui dépendent fortement des exemples d’experts hors ligne posent problème : obtenir de telles données de haute qualité n’est pas toujours réalisable dans des environnements dangereux. Comment améliorer les capacités d’évitement d’obstacles des drones dans des conditions où les données sont limitées reste un défi scientifique. C’est dans ce contexte qu’une équipe de recherche de la Nanyang Technological University et de la Nanjing University of Aeronautics and Astronautics a proposé une nouvelle méthode d’évitement d’obstacles basée sur l’apprentissage par renforcement guidé par des stratégies non expertes (Nonexpert Policy Enhanced DRL, NPE-DRL). Cet article a été publié dans le numéro de janvier 2025 du IEEE Transactions on Artificial Intelligence par Yuhang Zhang, Chao Yan, Jiaping Xiao, et Mir Feroskhan.
Contexte de la recherche et problème posé
Les méthodes d’évitement d’obstacles traditionnelles, telles que le SLAM (Simultaneous Localization and Mapping, localisation et cartographie simultanées), reposent sur l’extraction de caractéristiques et nécessitent généralement d’importantes ressources de calcul, ce qui les rend inefficaces dans les environnements à faible texture. De plus, en raison des limitations de taille et de charge utile des drones, les capteurs actifs tels que les radars, les LiDAR et les caméras RGB-D ne sont pas adaptés aux drones de petite taille, ce qui en fait des capteurs monoculaires un choix privilégié. Cependant, les caméras monoculaires présentent de nombreuses limitations en termes de représentation tridimensionnelle et de détection d’obstacles.
Pour surmonter ces limites techniques et améliorer l’efficacité de l’échantillonnage, les auteurs proposent d’utiliser des données de stratégie non experte pour guider la phase initiale d’apprentissage par renforcement tout en intégrant les avantages des réseaux de Q profond (Deep Q-Network, DQN) afin d’améliorer les performances d’évitement des obstacles.
Aperçu de la méthode et architecture du modèle
Cadre global et flux de travail
Le modèle NPE-DRL se compose de deux parties principales : 1) l’algorithme principal de DRL ; 2) un enseignant non expert conçu manuellement (nonexpert teacher). Le flux de travail spécifique est le suivant : 1. Génération de la stratégie non experte : Tout d’abord, l’approche du champ de potentiel artificiel (Artificial Potential Field, APF) est utilisée pour générer une stratégie non experte afin de fournir des directives initiales. Cette stratégie ne repose pas sur des exemples d’experts de haute précision, mais constitue une méthode heuristique pour guider l’apprentissage initial et l’exploration. 2. Apprentissage et exploration : Au cours des premières étapes de la formation, l’agent d’apprentissage par renforcement imite principalement le comportement des stratégies non expertes, puis passe progressivement à l’exploration autonome de l’environnement pour améliorer la flexibilité et l’adaptabilité de la politique d’apprentissage. 3. Discrétisation des actions : L’espace d’actions continues est mappé dans un espace d’actions discrètes en utilisant la logique floue (Fuzzy Logic). Cette innovation améliore considérablement l’efficacité de l’échantillonnage et réduit le temps de convergence des stratégies.
Conception de l’architecture du réseau
Afin de résoudre les problèmes d’observation partielle dus à la perception limitée des caméras monoculaires, l’équipe de recherche a conçu une structure de réseau neuronal profond à double entrée : 1. Les entrées incluent les images RGB capturées par une caméra monoculaire orientée vers l’avant et les informations de position relative du drone par rapport à la cible (distance et angle). Les images sont normalisées à une résolution de 224×224 pixels et enrichies avec du bruit gaussien pour améliorer la robustesse du système. 2. La partie encodeur du réseau contient deux couches de convolution 2D pour extraire les caractéristiques de l’image. Les vecteurs de caractéristiques traités sont ensuite concaténés avec les vecteurs de position avant de passer à des couches entièrement connectées pour un traitement ultérieur. 3. Le modèle utilise une architecture combinant Double DQN et Dueling DQN, séparant la fonction de valeur d’état (State-Value Function) et la fonction d’avantage d’action (Action-Advantage Function). Une telle architecture contribue à améliorer l’efficacité de l’apprentissage et à accroître la précision de l’approche de la stratégie d’évitement.
Simulations et expérimentations
Configuration des simulations
Pour évaluer la performance de NPE-DRL, deux environnements de simulation distincts ont été utilisés : 1. Environnement simple : Contient 10 obstacles cylindriques de 1 m de diamètre et 2 m de hauteur, dans une zone de 30 × 15 m. 2. Environnement complexe : Contient divers obstacles de mobilier de tailles allant de 0,4 m à 2 m, sur une zone de dimensions identiques.
Les indicateurs d’évaluation incluent le taux de succès, le taux de collision, le taux de dépassement de temps, le nombre de pas, la distance totale de vol et la consommation totale d’énergie. Lors de l’entraînement, un optimiseur Adam avec un taux d’apprentissage de 0,0001 a été utilisé. La taille du buffer de replay était de 100 000 données, avec une taille de mini-batch de 64 éléments.
Résultats des simulations
Comparé à plusieurs algorithmes de baseline (y compris Behavioral Cloning, D3QN et D3QN-LfD), NPE-DRL montre des améliorations significatives dans les taux de succès, en particulier dans des environnements denses et complexes (par exemple, un taux de succès de 72 % contre 34 % pour D3QN et 39 % pour D3QN-LfD). De plus, les résultats des simulations ont montré : 1. L’algorithme NPE-DRL génère des trajectoires plus fluides dans l’environnement, évitant des déviations majeures et améliorant efficacement la navigation. 2. Par rapport aux méthodes d’apprentissage par renforcement traditionnel basées sur des initialisations aléatoires, NPE-DRL converge rapidement (environ 500 épisodes), reflétant ainsi une efficacité d’échantillonnage significativement plus élevée.
Expériences physiques réelles
Pour valider davantage la capacité de généralisation du modèle, les auteurs ont mené des expériences de vol réelles en intérieur. L’environnement expérimental mesure 8 × 7 × 4 m, les obstacles sont des blocs blancs rectangulaires et la cible est une boîte cubique marquée. Un drone Tello EDU équipé d’une caméra monoculaire a été utilisé. Le système de capture de mouvement OptiTrack surveille en temps réel la position du drone et de la cible, et la politique apprise par NPE-DRL a été appliquée pour le contrôle.
Dans 60 essais, le drone a obtenu un taux de succès global de 81,67 %, montrant une bonne adaptabilité du modèle à des environnements pratiques. Bien que légèrement inférieur aux résultats de simulation, ce rendement reflète les défis supplémentaires liés à l’écart simulation-réalité et aux limitations matérielles.
Conclusions et implications
Cet article propose NPE-DRL comme une solution efficace pour l’évitement d’obstacles en monoculaire dans les environnements de perception limitée. En introduisant des connaissances non expertes pour guider l’apprentissage par renforcement, l’algorithme améliore considérablement l’efficacité de l’échantillonnage tout en renforçant les capacités d’évitement d’obstacles. De plus, la logique floue utilisée pour discrétiser l’espace d’actions continue constitue une approche innovante qui permet des décisions en temps réel plus rapides et plus efficaces. Les résultats expérimentaux montrent que l’algorithme offre une grande robustesse et de bonnes capacités de généralisation dans divers environnements.
Les principaux apports de cette recherche sont les suivants : 1. Valeur scientifique : Fournit une référence théorique pour résoudre les défis d’évitement d’obstacles visuels des drones. 2. Valeur pratique : Convient pour des tâches de drones complexes dans des scénarios tels que les sauvetages d’urgence ou la livraison de colis. 3. Points forts de la méthode : Combine pour la première fois des stratégies non expertes avec l’apprentissage par renforcement de manière fluide, offrant une nouvelle perspective pour optimiser l’apprentissage dans des conditions de données limitées.
Les futures recherches pourraient inclure l’extension de NPE-DRL aux systèmes multi-agents afin d’explorer les capacités de perception collective et de prise de décision collaborative pour relever des défis dans des environnements dynamiques encore plus complexes.