Locomotion humanoïde dans le monde réel avec apprentissage par renforcement

Marche de Robot Humanoïde dans le Monde Réel Basée sur l’Apprentissage Renforcé

Introduction

Les robots humanoïdes ont un potentiel énorme à opérer de manière autonome dans des environnements diversifiés, ce qui peut non seulement réduire la pénurie de main-d’œuvre dans les usines, mais aussi aider les personnes âgées à domicile et explorer de nouvelles planètes. Bien que les contrôleurs classiques montrent des résultats impressionnants dans certains scénarios, l’adaptation et la généralisation dans de nouveaux environnements restent un grand défi. Cet article propose une méthode entièrement basée sur l’apprentissage pour le contrôle de mouvement des robots humanoïdes dans le monde réel. Architecture du modèle

Motivation de la recherche

Les méthodes de contrôle classiques ont beaucoup progressé en termes de stabilité et de contrôle robuste des mouvements, mais leur adaptabilité et leur universalité sont limitées. Les méthodes basées sur l’apprentissage, capables d’apprendre de divers environnements simulés ou réels, attirent de plus en plus l’attention. Cet article vise à utiliser l’apprentissage renforcé pour entraîner un contrôleur basé sur un réseau Transformer, réalisant ainsi un contrôle du mouvement des robots humanoïdes dans des environnements complexes.

Auteurs et informations de publication

Cet article a été coécrit par Ilija Radosavovic, Tete Xiao, Bike Zhang, Trevor Darrell, Jitendra Malik et Koushil Sreenath, tous issus de l’Université de Californie, Berkeley. Cette recherche a été publiée dans « Science Robotics » le 17 avril 2024.

Processus de travail

Processus de recherche

Cette recherche comprend plusieurs étapes :

  1. Entraînement à grande échelle dans des environnements simulés :

    • Un entraînement sans modèle (model-free) basé sur l’apprentissage renforcé a d’abord été réalisé dans des environnements simulés à grande échelle. Les conditions de l’environnement de l’entraînement ont été largement randomisés pour garantir l’adaptabilité du modèle aux perturbations extérieures.
    • Utilisant un Transformer causal, des informations sont extraites des histoires de mouvement et d’observation pour prédire l’action suivante.
  2. Premier déploiement dans le monde réel :

    • Le modèle entièrement entraîné dans l’environnement simulé a été déployé directement dans le monde réel, sans ajustement supplémentaire des paramètres du modèle.
    • Les environnements de déploiement incluent : trottoirs, pistes, pelouses et autres terrains extérieurs.

Expériences et tests

  1. Déploiement en environnement extérieur :

    • Tests réalisés dans divers environnements quotidiens tels que places, trottoirs, pelouse, etc. Le contrôleur a montré une performance stable sans chutes, malgré l’absence de support de sécurité.
  2. Expériences en intérieur :

    • Réalisées dans des conditions contrôlées incluant forces externes, terrains différents et charges variées. Les expériences ont montré que le robot pouvait maintenir son équilibre malgré des perturbations externes et naviguer dans des terrains complexes tout en transportant des objets de différentes masses et formes.
  3. Comparaison de simulation :

    • Comparaison avec les modèles actuels les plus avancés. Les résultats montrent que le nouveau contrôleur excelle sur des pentes, des marches et des terrains instables, et qu’il surpasse les méthodes existantes dans certains scénarios de récupération après perturbation.

Résultats principaux

  1. Résultats des tests en extérieur :

    • Le robot a pu marcher sur différentes surfaces telles que le béton sec et humide, les trottoirs et les pelouses.
    • Au cours d’une semaine de tests complets, le robot n’a pas chuté.
  2. Résultats des expériences en intérieur :

    • Validation de la stabilité du contrôleur face à des perturbations externes soudaines comme des poussées et des collisions.
    • Le robot a réussi à s’adapter et à traverser divers types de surfaces rugueuses disposées en laboratoire.
    • Le robot a aussi transporté différentes charges et ajusté sa posture pour maintenir l’équilibre.
  3. Commandes en temps réel et marche naturelle :

    • Le contrôleur peut suivre précisément et exécuter des commandes de vitesse changeantes en temps réel, permettant une marche dans toutes les directions.
    • Le robot a montré des caractéristiques de marche humaine naturelle, comme le balancement des bras, ce qui a encore réduit la consommation d’énergie.

Conclusions et significations

Les résultats de ces expériences démontrent la faisabilité d’utiliser un contrôleur simple et universel basé sur l’apprentissage pour le contrôle des robots humanoïdes dans des environnements complexes et haute dimension dans le monde réel. Les principales contributions incluent :

  1. Adaptabilité et robustesse :

    • Le contrôleur montre une performance stable dans des environnements inconnus et s’adapte à différents types de terrain et perturbations externes.
  2. Performance comportementale :

    • Le contrôleur affiche des comportements de marche naturelle, y compris des changements de démarche suivant les commandes et une capacité à réagir rapidement aux obstacles soudains.
  3. Valeur scientifique et applicative :

    • Cette recherche offre une nouvelle perspective sur la théorie du contrôle des robots et fournit un support technique pour des tâches diversifiées des robots humanoïdes en applications concrètes.

Innovations méthodologiques et support des résultats

Les méthodes de cet article reposent principalement sur les innovations suivantes :

  1. Modèle Transformer causal :

    • Utilisation d’un Transformer causal pour extraire des informations de l’historique des mouvements, s’adapter à différents environnements et ajuster dynamiquement le comportement.
  2. Entraînement à grande échelle en simulation :

    • Entraînement dans des environnements massivement randomisés, garantissant une adaptabilité et une robustesse élevées du modèle.
  3. Combinaison d’apprentissage par imitation et d’apprentissage renforcé :

    • Combinaison de l’apprentissage par imitation d’expert (“teachers”) et l’apprentissage renforcé pour une optimisation conjointe, améliorant l’efficacité de l’entraînement et la performance du modèle.

Perspectives futures

Bien que la méthode de cette recherche montre une excellente adaptabilité et robustesse, certaines limitations subsistent, comme la stabilité face à des perturbations externes extrêmes. Les travaux futurs pourraient se concentrer sur l’amélioration de l’adaptabilité du modèle aux conditions extrêmes et explorer d’autres applications potentielles des modèles Transformer.

Résumé

Cette recherche, à travers des méthodes d’apprentissage avancées, a permis le contrôle efficace des mouvements des robots humanoïdes dans des environnements réels, offrant de nouvelles perspectives théoriques et des indications pratiques importantes. Nous attendons avec impatience que de futures recherches continuent d’optimiser et d’étendre ces méthodes.