Q-Cogni : Un cadre intégré d'apprentissage par renforcement causal
Rapport de dynamique scientifique : Q-Cogni — Un cadre intégré d’apprentissage par renforcement causal
Ces dernières années, les avancées rapides de l’intelligence artificielle (IA) ont conduit les chercheurs à explorer en profondeur la construction de systèmes d’apprentissage par renforcement (Reinforcement Learning, RL) plus efficaces et explicables. Le RL, inspiré du processus de prise de décision humain, trouve des applications dans des domaines variés tels que la planification automatisée, la navigation, le contrôle robotique et le diagnostic médical. Cependant, les méthodes actuelles de RL font face à plusieurs défis : besoins en grands volumes d’exemples, complexité de modélisation des environnements, faible niveau d’explicabilité des décisions et incapacité à s’adapter à des environnements dynamiques par manque de raisonnement causal. Face à ces défis, une équipe composée de Cristiano da Costa Cunha, Wei Liu, Tim French et Ajmal Mian a proposé le cadre Q-Cogni, offrant une solution innovante pour adresser ces problèmes.
Contexte et objectifs de la recherche
Le RL est une méthode où un agent apprend la meilleure séquence d’actions pour accomplir une tâche en interagissant avec son environnement. Traditionnellement, le RL est divisé en deux catégories principales : les méthodes basées sur des modèles (Model-Based RL) et celles sans modèle (Model-Free RL). Les méthodes sans modèle ne nécessitent pas une connaissance préalable de l’environnement, mais elles consomment beaucoup d’exemples et s’adaptent mal aux changements complexes. En revanche, les méthodes basées sur des modèles offrent une meilleure efficacité mais nécessitent des coûts de calcul élevés pour créer et maintenir des modèles environnementaux précis. Pour pallier ces limites, le raisonnement causal a été récemment introduit dans le RL afin d’explorer les relations causales entre les états, les actions et les récompenses. Toutefois, de nombreuses approches existantes nécessitent au préalable une structure causale définie par domaine spécifique, ce qui est souvent difficile à obtenir dans des scénarios réels.
L’objectif de Q-Cogni est de fournir un cadre d’apprentissage par renforcement causal explicable qui découvre automatiquement la structure causale de l’environnement, l’intègre dans le processus d’apprentissage pour améliorer l’efficacité d’apprentissage, la qualité des politiques apprises et leur explicabilité.
Origine et publication de l’étude
Cette étude a été menée par l’Université d’Australie-Occidentale (University of Western Australia), au sein du département d’informatique et d’ingénierie logicielle. Les auteurs de cette recherche sont Cristiano da Costa Cunha, Wei Liu, Tim French et Ajmal Mian. Leur travail a été publié dans la revue IEEE Transactions on Artificial Intelligence, numéro de décembre 2024 (vol. 5, n° 12), sous le titre « Q-Cogni: An Integrated Causal Reinforcement Learning Framework » (DOI: 10.1109/TAI.2024.3453230).
Méthodologie et réalisation technique
Q-Cogni redéfinit les algorithmes traditionnels du RL, tels que Q-Learning, pour intégrer directement le raisonnement causal. Ce cadre modulaire est divisé en plusieurs étapes clés :
1. Découverte automatique de la structure causale de l’environnement
Le premier module de Q-Cogni découvre automatiquement la structure causale d’un environnement :
- Collecte aléatoire d’échantillons : En utilisant des marches aléatoires, l’agent collecte des transitions entre états, actions et récompenses, formant ainsi un ensemble de données qui capture les dynamiques environnementales.
- Apprentissage de la structure causale : L’algorithme Notears, efficace pour l’optimisation non combinatoire, est utilisé pour découvrir les relations causales à partir des données, générant un graphe orienté acyclique (DAG). Cette structure est ensuite enrichie avec un réseau bayésien (Bayesian Belief Network, BBN) pour calculer efficacement les probabilités conditionnelles.
- Flexibilité humaine : Des experts peuvent intégrer manuellement des contraintes dans le modèle, permettant une interaction entre connaissances domaine-spécifiques et approche pilotée par les données.
2. Module d’inférence causale
Le second composant utilise le modèle de structure causale pour sélectionner les actions de l’agent :
- Processus d’inférence causale : En tenant compte des probabilités conditionnelles calculées par le BBN, l’agent choisit des actions susceptibles de maximiser les chances d’atteindre des objectifs ou sous-objectifs spécifiques.
- Récompenses pondérées par probabilités : Une pondération probabiliste des récompenses est incorporée, atténuant les problèmes liés à la rareté des récompenses.
3. Algorithme Q-Learning modifié
L’algorithme Q-Learning intégré a été modifié comme suit :
- Apprentissage focalisé sur les sous-objectifs : En priorisant les sous-objectifs (ex. : récupérer un passager avant de le déposer au point final), l’agent limite sa recherche au sous-espace d’état pertinent.
- Stratégie d’exploration dynamique : L’agent combine des actions guidées par l’inférence causale avec une stratégie d’exploration epsilon en déclin.
Expériences et résultats
Le cadre Q-Cogni a été validé expérimentalement dans plusieurs scénarios, incluant un problème de routage de véhicules simulé et une application réelle de navigation dans New York. Les principaux résultats incluent :
1. Efficacité accrue de l’apprentissage
Dans l’environnement Taxi-v3 d’OpenAI Gym, Q-Cogni a surpassé les approches classiques (Q-Learning standard, Double Deep Q-Network [DDQN], Proximal Policy Optimization [PPO]) en termes de vitesse d’apprentissage et d’obtention de politiques optimales.
2. Comparaisons avec les méthodes de recherche de chemin le plus court
Pour des graphes de dimensions croissantes (jusqu’à 512 x 512), Q-Cogni a démontré une meilleure évolutivité que les algorithmes traditionnels de recherche de chemin tels que Dijkstra et A*. Contrairement à ces derniers, Q-Cogni ne nécessite pas de carte globale complète et peut s’adapter dynamiquement aux changements pendant l’exécution.
3. Cas pratique : routage des taxis de New York
Utilisant un ensemble de données réelles des taxis de New York, Q-Cogni a été capable de générer des itinéraires plus courts que Q-Learning dans 66 % des cas. Lors de la comparaison avec Dijkstra, 76 % des itinéraires étaient aussi optimaux, mais avec la capacité de s’ajuster dynamiquement à des événements en temps réel (ex. : embouteillages), là où Dijkstra nécessitait un recalcul complet.
4. Explicabilité accrue
Q-Cogni inclut une explication des décisions de routage, indiquant les causes et les probabilités associées aux choix effectués. Cette capacité explicative est essentielle dans des environnements nécessitant une interface utilisateur-agent fiable.
Signification et perspectives
1. Valeur scientifique
Q-Cogni est une des premières approches à unifier découverte causale autonome et RL dans un cadre hybride. En réduisant les besoins en exploration et en augmentant l’efficacité d’apprentissage, ce cadre inaugure une nouvelle direction pour le RL.
2. Applications pratiques
Les capacités adaptatives de Q-Cogni, notamment l’absence de dépendance à une carte globale et l’ajustement dynamique, sont particulièrement pertinentes pour des domaines comme la logistique ou les plateformes de covoiturage. De plus, son cadre explicable convient aux domaines sensibles comme la santé, où les explications et la validation des décisions sont cruciales.
3. Travaux futurs
Les auteurs proposent d’explorer l’application de Q-Cogni dans des espaces d’état-action continus (ex. : systèmes de contrôle), ainsi que son intégration à des techniques avancées telles que le traitement naturel du langage pour une compréhension contextuelle dynamique.
Q-Cogni montre une voie prometteuse pour combiner apprentissage causal et RL dans la résolution de problèmes complexes du monde réel.