Alignement des niveaux d'empathie via l'apprentissage par renforcement pour la génération de réponses empathiques
Recherche sur la génération de réponses empathiques dans les systèmes de dialogue d’intelligence artificielle
Contexte académique
Avec le développement rapide des technologies de l’intelligence artificielle, les systèmes de dialogue en domaine ouvert (open-domain dialogue systems) sont progressivement devenus un sujet de recherche chaud. Ces systèmes visent à engager des conversations naturelles et fluides avec les utilisateurs et à fournir des réponses raisonnables. Cependant, bien que les systèmes de dialogue actuels aient fait des progrès significatifs en termes de fluidité et de cohérence du langage, leur capacité à exprimer de l’empathie reste insuffisante. L’empathie fait référence à la capacité de comprendre les expériences et les émotions des autres, englobant à la fois l’empathie affective (affective empathy) et l’empathie cognitive (cognitive empathy). L’empathie affective implique une réaction aux émotions de l’utilisateur, tandis que l’empathie cognitive se concentre sur la compréhension de la situation de l’utilisateur. L’empathie est une caractéristique fondamentale de la communication humaine et est essentielle pour construire des systèmes de dialogue anthropomorphiques.
Cependant, les méthodes actuelles de génération de réponses empathiques (empathetic response generation) reposent principalement sur l’estimation de la probabilité maximale (maximum likelihood estimation, MLE) comme objectif d’optimisation, sans aligner efficacement les niveaux d’empathie entre les réponses générées et les réponses cibles. Le niveau d’empathie (empathy level) est un concept fondamental dans la théorie de l’empathie, quantifié par trois mécanismes clés : la réaction émotionnelle (emotional reaction), l’interprétation (interpretation) et l’exploration (exploration). Aligner les niveaux d’empathie entre les réponses générées et les réponses cibles permet d’approcher plus fidèlement l’expression humaine de l’empathie, améliorant ainsi la qualité des réponses générées.
Pour résoudre ce problème, une équipe de recherche de l’Université de Technologie de Hefei et de l’Université de Technologie de Dalian a proposé un cadre de génération de réponses empathiques basé sur l’apprentissage par renforcement (reinforcement learning, RL) appelé EmPRL (Empathetic Response Generation via Reinforcement Learning). Ce cadre génère des réponses empathiques en concevant une fonction de récompense empathique efficace et en maximisant la récompense attendue grâce à l’apprentissage par renforcement.
Origine de l’article
Cet article a été co-écrit par Hui Ma, Bo Zhang, Bo Xu, Jian Wang, Hongfei Lin et Xiao Sun, et publié dans IEEE Transactions on Affective Computing, avec une publication officielle prévue pour 2025. Le titre de l’article est « Empathy Level Alignment via Reinforcement Learning for Empathetic Response Generation ». L’équipe de recherche provient de l’Université de Technologie de Hefei et de l’Université de Technologie de Dalian, et se concentre sur des domaines tels que le traitement du langage naturel, les systèmes de dialogue et le calcul affectif.
Processus de recherche
1. Définition de la tâche et aperçu du cadre
La tâche principale du cadre EmPRL consiste à générer des réponses empathiques, c’est-à-dire produire des réponses qui comprennent les émotions des utilisateurs et expriment de l’empathie selon le contexte de la conversation. Plus précisément, étant donné un contexte contenant plusieurs tours de dialogue, le modèle doit générer une réponse fluide, cohérente et empathique.
Les principales composantes du cadre EmPRL incluent : - Générateur : Utilise le modèle pré-entraîné T5 comme générateur, initialisé par un ajustement fin (fine-tuning). - Identificateur d’empathie : Conception et entraînement d’un identificateur d’empathie pour reconnaître les niveaux d’empathie des réponses dans le contexte de la conversation. - Fonction de récompense : Une fonction de récompense empathique combinant les trois mécanismes d’empathie (réaction émotionnelle, interprétation et exploration) pour aligner les niveaux d’empathie entre les réponses générées et les réponses cibles. - Entraînement par apprentissage par renforcement : Utilisation de l’algorithme Proximal Policy Optimization (PPO) pour entraîner la stratégie afin de générer des réponses intégrant à la fois l’empathie affective et cognitive.
2. Ajustement fin du générateur
L’équipe de recherche a d’abord utilisé le modèle T5 comme générateur, qu’elle a ajusté finement. Pendant l’ajustement fin, l’optimiseur AdamW a été utilisé, avec un taux d’apprentissage initial de 1.0e-4 et une taille de lot de 8. Pendant l’inférence, le nombre maximum d’étapes de décodage a été fixé à 30, en utilisant la stratégie d’échantillonnage TopK-TopP.
3. Conception et entraînement de l’identificateur d’empathie
La structure de l’identificateur d’empathie comprend deux encodeurs T5 pré-entraînés indépendants, utilisés respectivement pour encoder le contexte et la réponse. À travers un mécanisme d’attention à tête unique (single-head attention mechanism) et une connexion résiduelle (residual connection), une représentation de la réponse sensible au contexte est générée, puis passée par un max-pooling et une couche linéaire pour prédire le niveau d’empathie.
L’entraînement de l’identificateur d’empathie utilise le jeu de données Mental Health Subreddits, qui contient 3000 paires
4. Entraînement par apprentissage par renforcement
Dans la phase d’entraînement par apprentissage par renforcement, l’équipe de recherche a utilisé l’algorithme PPO pour entraîner la stratégie. La fonction de récompense est composée d’une récompense empathique et d’un terme de pénalité KL, la récompense empathique servant à aligner les niveaux d’empathie entre les réponses générées et les réponses cibles, tandis que la pénalité KL empêche la stratégie de trop s’éloigner du générateur. Pendant l’entraînement, l’optimiseur AdamW a été utilisé, avec un taux d’apprentissage de 1.0e-5 et une taille de lot de 32.
Résultats principaux
1. Résultats d’évaluation automatique
L’équipe de recherche a mené des expériences sur le jeu de données EmpatheticDialogues pour évaluer les performances du cadre EmPRL. Les résultats expérimentaux montrent que EmPRL a atteint un score F1 d’empathie (Empathy F1-score, Emp-F1) de 69,43 %, surpassant nettement les modèles de base existants. De plus, EmPRL s’est également distingué par la fluidité et la diversité des réponses générées.
2. Résultats d’évaluation humaine
À travers une évaluation humaine, l’équipe de recherche a davantage validé l’efficacité du cadre EmPRL. Sur les trois dimensions de l’empathie, de la pertinence et de la fluidité, EmPRL a surpassé de manière significative les modèles de base liés à la tâche. De plus, comparé à ChatGPT, EmPRL a montré une compétitivité accrue dans l’expression de l’empathie.
Conclusion et signification
Le cadre EmPRL réussit à aligner les niveaux d’empathie entre les réponses générées et les réponses cibles en concevant une fonction de récompense empathique efficace et en maximisant la récompense attendue grâce à l’apprentissage par renforcement. Les résultats expérimentaux montrent que EmPRL peut générer des réponses intégrant à la fois l’empathie affective et cognitive, améliorant considérablement la capacité empathique des systèmes de dialogue.
La valeur scientifique de cette recherche réside dans la proposition d’un nouveau cadre de génération de réponses empathiques, comblant le vide des méthodes existantes en matière d’alignement des niveaux d’empathie. De plus, le cadre EmPRL présente une forte valeur applicative et peut être largement utilisé dans des scénarios tels que le soutien psychologique, la compagnie émotionnelle et le soutien à la santé mentale.
Points forts de la recherche
- Fonction de récompense empathique innovante : En combinant les trois mécanismes d’empathie (réaction émotionnelle, interprétation et exploration), une fonction de récompense empathique efficace a été conçue pour aligner les niveaux d’empathie entre les réponses générées et les réponses cibles.
- Application de l’apprentissage par renforcement : Pour la première fois, l’apprentissage par renforcement a été appliqué à la tâche de génération de réponses empathiques, entraînant la stratégie avec l’algorithme PPO pour générer des réponses plus empathiques.
- Large perspective d’application : Cette recherche présente non seulement une importance académique significative, mais elle offre également une large valeur applicative dans des domaines pratiques tels que le soutien psychologique et la compagnie émotionnelle.
Autres informations précieuses
L’équipe de recherche a également souligné que, dans le futur, elle étendra davantage ce cadre pour explorer des méthodes permettant de maintenir la cohérence empathique dans les dialogues à plusieurs tours, et introduira des techniques de génération augmentée par récupération (retrieval-augmented generation) pour améliorer encore la qualité de la génération de réponses empathiques.