Apprentissage des Compétences de Football Agile pour un Robot Bipède avec de l'Apprentissage par Renforcement Profond
L’apprentissage profond pour renforcer les compétences agiles en football des robots bipèdes
Introduction au contexte
Démontrer une agilité, une flexibilité et une capacité de compréhension des agents dans le monde physique est l’un des objectifs de longue date de la recherche en intelligence artificielle (IA). Cependant, les animaux et les humains ne se contentent pas de réaliser des mouvements corporels complexes de manière fluide, ils perçoivent et comprennent également leur environnement, et atteignent des objectifs complexes dans le monde par le biais de leur corps. Historiquement, les tentatives de création d’agents corporels intelligents avec des capacités de mouvement complexes remontent à loin, tant dans des environnements simulés que réels. Avec les progrès technologiques accélérés de ces dernières années, en particulier les méthodes basées sur l’apprentissage, l’apprentissage profond par renforcement (Deep Reinforcement Learning, Deep RL) a prouvé son efficacité dans la résolution de problèmes complexes de contrôle du mouvement, que ce soit pour des personnages simulés ou des robots physiques.
Cependant, pour les robots humanoïdes et bipèdes, en raison de défis particuliers en termes de stabilité, de sécurité des robots, de nombre de degrés de liberté et de disponibilité du matériel, l’application des méthodes basées sur l’apprentissage reste relativement rare. Les recherches de pointe actuelles continuent de dépendre du contrôle prédictif basé sur des modèles spécifiques, ce qui limite la généralité des méthodes.
Cet article, mené par Tuomas Haarnoja et d’autres collaborateurs de Google DeepMind, s’est concentré sur l’utilisation de la méthode d’apprentissage profond par renforcement (Deep RL) pour entraîner des robots humanoïdes bipèdes, petits et peu coûteux, à des compétences de jeu de football simplifiées en un contre un, explorant ainsi leur capacité à accomplir des tâches dynamiques et complexes de contrôle corporel. Cette étude ne se contente pas de défier les limites actuelles du contrôle du mouvement des robots bipèdes, mais démontre également l’efficacité et le potentiel du Deep RL dans ce processus.
Source de l’article
Cet article a été coécrit par Tuomas Haarnoja, Ben Moran, Guy Lever et d’autres au sein de Google DeepMind, et publié dans le journal Science Robotics le 10 avril 2024, avec une révision effectuée le 17 avril 2024.
Processus et méthodes de recherche
Processus de recherche
Le processus de recherche de cet article comprend les deux principales étapes suivantes :
Première étape : formation des compétences À l’étape de la formation des compétences, les auteurs ont entraîné séparément les compétences de lever et de marquer du robot. Lors de l’entraînement à la compétence de marquer, l’objectif du robot était de marquer autant de buts que possible, l’opposant étant un mannequin non entraîné. Grâce à une fonction de récompense pondérée, le robot est encouragé à augmenter sa vitesse et à interagir avec le ballon, et des contraintes nécessaires pour réduire les risques de dommages au robot sont intégrées à l’application pratique du robot physique. Lors de l’entraînement à la compétence de se lever, des poses clés ont été collectées et des ajustements de posture basés sur des poses cibles spécifiques ont été utilisés pour guider les mouvements du robot, assurant la stabilité et l’absence de collisions pendant le processus de lever.
Deuxième étape : distillation et auto-apprentissage À la deuxième étape, les différentes compétences de la première étape sont combinées pour la distillation et l’entraînement dans un environnement d’auto-apprentissage multi-agents, afin de former un agent capable de participer à un match de football complet en un contre un. Pendant le processus d’auto-apprentissage, les adversaires sont sélectionnés au hasard parmi les instantanés d’agents de la phase de formation précédente. Grâce à la superposition des récompenses des compétences et à l’entraînement à la compétition multi-agents, la fusion et l’amélioration des compétences sont réalisées.
Détails de la formation
Dans le processus de formation détaillé, les chercheurs ont utilisé un processus de décision de Markov partiellement observé (POMDP) et ont employé l’algorithme MPO (Optimisation de la stratégie de maximum de probabilité a posteriori) pour l’entraînement. Le processus spécifique est le suivant : l’agent teste d’abord la stratégie initiale dans un environnement simulé, puis l’optimise grâce à une série d’échantillons robotisés à faible coût. Les entrées du processus de formation incluent la posture du robot, l’accélération linéaire, la vitesse angulaire, la direction de la gravité et l’état du jeu (positions et vitesses relatives du robot, du ballon, de l’adversaire et du but). Grâce à des techniques de randomisation de domaine et de perturbation aléatoire, les stratégies formées possèdent une plus grande robustesse et une meilleure capacité de transfert entre domaines.
Résultats expérimentaux
Comparaison et évaluation des performances
L’équipe de recherche a appliqué les stratégies entraînées dans des environnements réels, démontrant leurs performances, leur capacité de généralisation et leur stabilité à travers une série d’expériences comparatives. Les comportements robotiques utilisés pour les comparaisons incluent la marche, les pivots, le lever et les tirs au but, etc. Les résultats expérimentaux montrent que par rapport aux méthodes de contrôle basées sur des scripts, les stratégies entraînées par Deep RL surpassent nettement les lignes de base manuellement conçues dans plusieurs aspects : la vitesse de marche est 181 % plus rapide, la vitesse de pivot est augmentée de 302 %, le temps de lever est réduit de 63 % et la vitesse de tir au but est améliorée de 34 %.
À travers une analyse de visualisation des trajectoires des comportements robotiques par approximation de chemin unifié et projection (UMAP), il est démontré que les stratégies Deep RL ont un avantage en termes de continuité et de flexibilité des mouvements par rapport aux méthodes basées sur des scripts. De plus, les stratégies Deep RL permettent une initialisation aléatoire dans une certaine mesure, offrant une plus grande flexibilité pour faire face aux adversaires et ajuster les mouvements, démontrant des stratégies variées telles que les interceptions et les ajustements dynamiques de la foulée.
Conclusion et signification
En utilisant l’apprentissage profond par renforcement pour entraîner un robot bipède peu coûteux à des matchs simplifiés en un contre un, cet article montre le potentiel du Deep RL dans des tâches dynamiques et complexes nécessitant un contrôle corporel complet. L’étude montre que par le biais d’une régularisation appropriée, de la randomisation de domaine et de l’injection de bruit au cours du processus de formation, même des robots peu coûteux peuvent réaliser un transfert de stratégie de haute qualité. Cette recherche ne se contente pas de repousser les limites du contrôle du mouvement des robots bipèdes, mais confirme également le potentiel de l’apprentissage profond par renforcement dans les tâches dynamiques des robots.
Points forts de la recherche
- Performance robuste : Comparées aux méthodes de contrôle basées sur des lignes de base manuelles, les stratégies Deep RL se démarquent clairement par leurs avantages significatifs en termes d’accélération, de pivotement, de lever, etc.
- Stratégies intelligentes : L’agent a découvert automatiquement des comportements adaptés aux situations spécifiques du jeu, montrant des stratégies telles que le blocage, la garde du but et le positionnement défensif, qui sont difficiles à réaliser par conception manuelle.
- Fusion de compétences fluide : Grâce aux compétences préentraînées de lever et de marquer, non seulement l’efficacité de l’exploration est améliorée, mais l’agent montre également des transitions fluides dans les mouvements lorsqu’il fait face à différentes situations.
Travaux futurs et orientations de développement
Cette recherche met en lumière non seulement la faisabilité de la simulation au réel pour le contrôle du mouvement des robots, mais ouvre également de nouvelles directions pour les recherches futures : telles que la formation coopérative multi-agents, l’exploration de la prise de décision des robots guidée directement par les informations visuelles, etc. Débarrasser les agents de la dépendance aux informations d’état externes et étendre davantage le spectre des comportements dynamiques des agents seront des contenus importants pour les recherches futures.