Apprentissage Modèle Basé sur l'Exploration avec Auto-Attention pour le Contrôle de Robot Sensible aux Risques

2024-06-03 Mon
contrôle des robots auto-attention apprentissage de modèle sensible aux risques apprentissage par renforcement modèle dynamique modèle cinématique
Exploration du Contrôle des Robots Sensibles au Risque Basée sur le Mécanisme d’Auto-AttentionContexte de la RechercheLa cinématique et la dynamique dans le contrôle des robots sont des facteurs clés pour garantir l’accomplissement précis des tâches. La plupart des schémas de contrôle des robots reposent sur divers modèles pour optimiser les tâches, la planification et le contrôle des priorités. Cependant, les caractéristiques dynamiques des modèles traditionnels sont souvent complexes à calculer et sujettes aux erreurs. Pour résoudre ce problème, l’utilisation des techniques d’apprentissage automatique et d’apprentissage par renforcement pour obtenir automatiquement des modèles est devenue une alternative viable. Toutefois, l’application directe à des systèmes robotiques réels comporte des risques de changements de mouvement brusques et de sorties comportementales non désirées.
Origine de la RechercheCet article a été écrit par Dongwook Kim, Sudong Lee, Tae Hwa Hong et Yong-Lae Park, auteurs issus respectivement de l’Université Nationale de Séoul et de l’École Polytechnique Fédérale de Lausanne. Cette recherche a été publiée dans la revue npj Robotics en 2023.
Contenu de la RechercheProcessus de RechercheCet article propose un algorithme de mise à jour de modèle en ligne, directement appliqué aux systèmes robotiques réels. Cet algorithme utilise un modèle de mécanisme d’auto-attention intégré dans un réseau neuronal pour traiter la cinématique et la dynamique du système cible. Sa nouveauté réside dans le paramètre redondant du chemin d’auto-attention et la création d’un modèle indépendant du temps permettant de détecter les anomalies grâce à la valeur de trace de la matrice d’auto-attention, et de réduire les variations aléatoires pendant le processus de mise à jour du modèle.
Processus ExpérimentalIntroduction en plusieurs étapes:
L’entrée initiale (modèle cinématique) utilise un réseau neuronal de fonction de base radiale (RBFNN) pour approximer la cinématique.
Introduction des couches d’encodage, de décodage et d’auto-attention, pour extraire les caractéristiques de corrélation à partir des relations temporelles.
Utilisation de la valeur de trace de la matrice d’auto-attention pour ajuster la zone d’exploration du robot, réalisant ainsi un contrôle optimal de la trajectoire.
Le modèle dynamique considère la relation entre l’entrée de contrôle et l’état de configuration du robot, excluant l’influence des forces externes, détectant les interférences et excluant les ensembles de données perturbés.
Enfin, à travers deux réseaux d’auto-attention, l’espace de tâche et l’ensemble de données sont robustement filtrés et ajustés, générant finalement une loi de contrôle en temps réel.
Étapes opérationnelles spécifiques:
Le robot reçoit l’entrée de contrôle et exécute une action en un seul pas.
Observation de l’état du robot (état de configuration et état de la tâche).
Calcul des composants des équations cinématiques et dynamiques.
Préparation de l’état de la tâche cible suivante.
Détermination de l’entrée de contrôle suivante.
Entraînement du réseau neuronal approximatif du modèle à l’aide d’un buffer de relecture.
Ajustement de l’espace des tâches et filtrage des ensembles de données via la matrice du réseau d’auto-attention.
Méthode ExpérimentaleModèle d’Auto-Attention Cinématique:
La couche d’auto-attention passe par les couches d’encodage et de décodage pour corréler les caractéristiques des pas de temps passés. En réduisant l’écart de la trace avec la matrice unitaire, la précision des prédictions du modèle est améliorée. En parallèle, la détection des anomalies est combinée avec la contrainte de la zone d’exploration.
Modèle d’Auto-Attention Dynamique:
L’entrée de contrôle est transmise à la couche d’encodage et traitée par le réseau d’auto-attention avec d’autres entrées temporellement corrélées. Elle prédit les changements d’état de configuration, identifie et ignore les perturbations externes.
Résultats PrincipauxValidation en Environnement de Simulation:
Le robot a accompli deux tâches (un mouvement aller-retour et un suivi de trajectoire circulaire) dans un environnement de simulation PyBullet. Pour toutes les tâches exécutées, l’ajustement de l’exploration grâce au réseau d’auto-attention a permis d’améliorer significativement la précision du suivi et de détecter et traiter les interférences en temps opportun.
Application de Suivi de Trajectoire d’un Bras Robotique Souple:
Un bras robotique souple avec capacité de contrôle tridimensionnel a été monté et testé en réel. Le bras robotique souple a réussi à accomplir une tâche de suivi de trajectoire en ’S’. En diminuant la contrainte de la zone d’exploration sous des changements dynamiques, il a efficacement élargi la gamme de mouvement et réduit l’erreur.
Opération Autonome de Robot Industriel:
Utilisation d’un robot industriel UR5e pour jouer du piano. Pendant le processus, en élargissant progressivement l’espace des tâches via le mécanisme d’auto-attention, le robot a réussi à maîtriser et jouer une partition complexe après 25 cycles expérimentaux.
Contrôle de la Démarche d’un Robot à Quatre Pattes:
Utilisation d’un robot à quatre pattes pour imiter et reproduire une trajectoire de référence dans des conditions non simulées, réalisant une marche stable. En augmentant le domaine d’exploration de la trajectoire de référence, la gamme de mouvement a été élargie.
Conclusion de la RechercheEn appliquant un algorithme de mise à jour de modèle basé sur le mécanisme d’auto-attention aux systèmes robotiques réels, cette recherche a considérablement amélioré le contrôle précis des états de tâches complexes et réduit les interférences externes, prouvant l’efficacité de l’algorithme dans des applications robotiques étendues.
Points Forts de la RechercheApplication directe du mécanisme d’auto-attention dans le contrôle en temps réel des robots, améliorant la capacité de détection et d’ajustement rapide du modèle.
Absence de dépendance à un environnement simulé ou à des connaissances préalables du modèle, permettant une généralisation et une utilisation efficace des données.
Prise en compte simultanée de la cinématique et de la dynamique, réduisant considérablement les risques d’erreurs en opération réelle.
Avec l’optimisation continue de l’algorithme, il est prévu que des méthodes similaires puissent être davantage utilisées dans des tâches complexes et à haut risque de contrôle de robots.