Une étude comparative holistique des grands modèles de langage en tant que systèmes de dialogue de soutien émotionnel

Contexte académique

Ces dernières années, avec le développement rapide des grands modèles de langage (LLMs, Large Language Models), leur application dans le domaine du traitement du langage naturel (NLP, Natural Language Processing) est de plus en plus répandue. Les LLMs tels que ChatGPT et LLaMA ont démontré une puissante capacité de génération et de compréhension du langage, et ont même montré des performances remarquables en matière d’expression émotionnelle et d’empathie. Les systèmes de dialogue de soutien émotionnel (ESDS, Emotional Support Dialogue Systems) visent à transmettre la compréhension, la sympathie, le soin et le soutien par le dialogue, afin d’aider les autres à faire face à la détresse émotionnelle, au stress ou aux défis. Cependant, bien que les LLMs aient montré un potentiel dans les dialogues émotionnels, leur capacité à fournir un soutien émotionnel efficace n’a pas encore été pleinement évaluée.

Cette étude vise à explorer si les LLMs peuvent servir de cadre central aux systèmes de dialogue de soutien émotionnel et à évaluer leurs performances en termes de stratégies de soutien émotionnel et d’utilisation du langage. En comparant les performances des LLMs et des humains dans les dialogues de soutien émotionnel, l’étude révèle les limites des LLMs dans la fourniture de soutien émotionnel, en particulier en ce qui concerne les préférences stratégiques et les biais dans la génération du langage.

Source de l’article

Cet article a été co-écrit par Xin Bai, Guanyi Chen, Tingting He, Chenlian Zhou et Cong Guo, tous affiliés à la Faculté d’intelligence artificielle et d’éducation de l’Université normale de Chine centrale, au Laboratoire clé provincial du Hubei pour l’intelligence artificielle et l’apprentissage intelligent, et au Centre national de surveillance et de recherche sur les ressources linguistiques. L’article a été publié en 2025 dans la revue Cognitive Computation, sous le titre A Holistic Comparative Study of Large Language Models as Emotional Support Dialogue Systems.

Processus de recherche

1. Cadre de recherche et ensemble de données

Cette étude est basée sur le cadre de conversation de soutien émotionnel (ESC, Emotional Support Conversation), proposé par Liu et al., qui comprend trois étapes : exploration, réconfort et action. Chaque étape est associée à un ensemble de stratégies de dialogue recommandées, telles que poser des questions, réfléchir sur les émotions, fournir des conseils, etc. L’étude utilise l’ensemble de données de référence ESC (ESConv), qui contient environ 1000 conversations et 13000 énoncés, chaque énoncé étant annoté avec la stratégie de soutien émotionnel correspondante.

2. Modèles et conception expérimentale

L’étude a sélectionné deux LLMs principaux : ChatGPT et LLaMA, et a conçu plusieurs techniques d’ingénierie des prompts (Prompt Engineering) pour construire des systèmes de dialogue de soutien émotionnel basés sur les LLMs. L’expérience a été divisée en plusieurs étapes :

  • Apprentissage sans exemple et avec peu d’exemples : Tester la capacité des LLMs à générer des dialogues de soutien émotionnel sans exemples ou avec seulement quelques exemples.
  • Modèles guidés : Indiquer explicitement au modèle quelle stratégie utiliser dans le prompt, et évaluer les performances du modèle avec la stratégie connue.
  • Modèles de chaîne de pensée (Chain-of-Thought, CoT) : Raisonner par étapes, en choisissant d’abord une stratégie puis en générant le dialogue, et évaluer les performances du modèle dans des tâches complexes.

3. Métriques d’évaluation

L’étude a évalué les modèles selon trois dimensions : - Précision de la sélection des stratégies : Évaluer la capacité du modèle à choisir la bonne stratégie. - Qualité de la génération : Utiliser des métriques d’évaluation automatique telles que BLEU et ROUGE pour évaluer la qualité des dialogues générés. - Diversité : Évaluer la diversité lexicale des dialogues générés à l’aide de la métrique DIST-N.

Résultats principaux

1. Précision de la sélection des stratégies

L’étude a révélé que les LLMs ne performaient pas bien en termes de précision de la sélection des stratégies, en particulier sans exemples. Par exemple, LLaMA dans un cadre 5-shot a atteint une précision de sélection de stratégie de seulement 21,84%, bien inférieure à celle des modèles non LLMs comme TransESC (34,71%). Cela indique que les LLMs ont encore un écart important dans la compréhension et l’utilisation des stratégies de soutien émotionnel.

2. Qualité et diversité de la génération

Bien que les LLMs aient une qualité de génération de dialogue comparable à celle des humains, leur contenu généré est souvent trop verbeux, ce qui entraîne des scores BLEU plus faibles. De plus, les LLMs montrent une bonne diversité lexicale, mais dans des contextes professionnels, une trop grande diversité lexicale n’est pas toujours bénéfique.

3. Préférences dans l’utilisation des stratégies

Les LLMs montrent une forte préférence pour certaines stratégies dans les dialogues de soutien émotionnel, en particulier lors de l’étape de réconfort. Par exemple, ChatGPT et LLaMA choisissent d’utiliser les stratégies de “réflexion émotionnelle” et “affirmation et réconfort” dans plus de 50% des cas, tout en prenant moins d’actions concrètes, comme fournir des conseils ou des informations. Ce biais de préférence limite la capacité des LLMs à fournir un soutien émotionnel complet.

Conclusion et signification

Cette étude montre que, bien que les LLMs aient démontré une puissante capacité d’empathie dans les dialogues émotionnels, ils présentent encore des limitations significatives dans la fourniture d’un soutien émotionnel efficace. Les LLMs ont tendance à surutiliser certaines stratégies, et le contenu généré s’écarte souvent des dialogues réels des experts humains. Cette découverte fournit une référence importante pour l’amélioration future des LLMs dans les applications de dialogue de soutien émotionnel.

Points forts de la recherche

  1. Comparaison complète : Cette étude est la première à comparer de manière exhaustive les performances des LLMs dans les dialogues de soutien émotionnel, révélant leurs biais dans la sélection des stratégies et la génération du langage.
  2. Méthodes innovantes : L’étude a utilisé diverses techniques d’ingénierie des prompts, comme les modèles de chaîne de pensée, offrant de nouvelles perspectives pour l’application des LLMs dans des tâches complexes.
  3. Signification pratique : Les résultats de l’étude ont une importance cruciale pour le développement de systèmes de dialogue de soutien émotionnel plus efficaces, en particulier en ce qui concerne la réduction des préférences stratégiques et de la sur-génération.

Perspectives futures

Les recherches futures pourraient explorer comment réduire les préférences stratégiques des LLMs dans les dialogues de soutien émotionnel, en les encourageant à prendre davantage d’actions concrètes, comme fournir des conseils. De plus, la manière de contrôler le problème de sur-génération des LLMs est également une direction importante pour les recherches futures.

Grâce à cette étude, nous avons non seulement approfondi notre compréhension des performances des LLMs dans les dialogues de soutien émotionnel, mais nous avons également fourni des insights précieux pour l’amélioration future des technologies dans ce domaine.